論文の概要: Is Cross-modal Information Retrieval Possible without Training?
- arxiv url: http://arxiv.org/abs/2304.11095v1
- Date: Thu, 20 Apr 2023 02:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:05:44.787240
- Title: Is Cross-modal Information Retrieval Possible without Training?
- Title(参考訳): クロスモーダル情報検索はトレーニングなしで可能か?
- Authors: Hyunjin Choi, Hyunjae Lee, Seongho Joe, Youngjune L. Gwon
- Abstract要約: Procrustes問題に対する解の最小二乗と特異値分解(SVD)から計算した単純な写像をとる。
すなわち、テキストのようなあるモダリティの情報が与えられた場合、このマッピングは、画像のような別のモダリティにおける意味的に等価なデータ項目を見つけるのに役立ちます。
既訓練の深層学習モデルを用いて,テキスト・ツー・イメージ検索と画像・トゥ・テキスト検索のタスクにおいて,上記の単純なモーダル・マッピングを実験した。
- 参考スコア(独自算出の注目度): 4.616703548353372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoded representations from a pretrained deep learning model (e.g., BERT
text embeddings, penultimate CNN layer activations of an image) convey a rich
set of features beneficial for information retrieval. Embeddings for a
particular modality of data occupy a high-dimensional space of its own, but it
can be semantically aligned to another by a simple mapping without training a
deep neural net. In this paper, we take a simple mapping computed from the
least squares and singular value decomposition (SVD) for a solution to the
Procrustes problem to serve a means to cross-modal information retrieval. That
is, given information in one modality such as text, the mapping helps us locate
a semantically equivalent data item in another modality such as image. Using
off-the-shelf pretrained deep learning models, we have experimented the
aforementioned simple cross-modal mappings in tasks of text-to-image and
image-to-text retrieval. Despite simplicity, our mappings perform reasonably
well reaching the highest accuracy of 77% on recall@10, which is comparable to
those requiring costly neural net training and fine-tuning. We have improved
the simple mappings by contrastive learning on the pretrained models.
Contrastive learning can be thought as properly biasing the pretrained encoders
to enhance the cross-modal mapping quality. We have further improved the
performance by multilayer perceptron with gating (gMLP), a simple neural
architecture.
- Abstract(参考訳): 事前訓練されたディープラーニングモデル(例えばBERTテキスト埋め込み、画像の最後尾のCNN層アクティベーションなど)からの符号化された表現は、情報検索に有用な豊富な特徴を伝達する。
特定のデータモダリティの埋め込みは、自身の高次元空間を占有するが、深いニューラルネットを訓練することなく、単純なマッピングによって意味的に互いに整合することができる。
本稿では, 最小二乗数と特異値分解(svd)から計算した単純写像を用いて, 補間問題に対する解を解き, クロスモーダル情報検索の手段を提供する。
すなわち、テキストのようなあるモダリティの情報が与えられた場合、このマッピングは、画像のような別のモダリティにおける意味的に等価なデータ項目を見つけるのに役立ちます。
既定のディープラーニングモデルを用いて,テキスト対画像検索と画像対テキスト検索のタスクにおいて,前述の単純なクロスモーダルマッピングを実験した。
シンプルさにもかかわらず、マップはrecall@10で77%という高い精度で動作し、これは高価なニューラルネットワークのトレーニングと微調整を必要とするものと同等です。
我々は,事前学習モデルのコントラスト学習により,単純なマッピングを改善した。
コントラスト学習は、事前訓練されたエンコーダを適切にバイアスし、クロスモーダルマッピングの品質を高めることができる。
我々は、単純なニューラルネットワークであるゲーティング(gMLP)を用いた多層パーセプトロンの性能をさらに改善した。
関連論文リスト
- Self-Supervised Pre-Training with Contrastive and Masked Autoencoder
Methods for Dealing with Small Datasets in Deep Learning for Medical Imaging [8.34398674359296]
医用画像の深層学習は、診断ミスのリスクを最小限に抑え、放射線医の作業量を減らし、診断を加速する可能性がある。
このようなディープラーニングモデルのトレーニングには,すべてのトレーニングサンプルに対するアノテーションを備えた,大規模かつ正確なデータセットが必要です。
この課題に対処するために、ディープラーニングモデルは、自己教師付き学習の分野からのメソッドを使用してアノテーションなしで、大規模な画像データセット上で事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-08-12T11:31:01Z) - PRSNet: A Masked Self-Supervised Learning Pedestrian Re-Identification
Method [2.0411082897313984]
本論文は, 強靭性を有する事前学習モデルを得るために, マスク再構築の前タスクを設計する。
センタロイドに基づいて三重項損失を改善することにより、ネットワークのトレーニング最適化を行う。
この手法は、既存の自己教師型学習歩行者再識別法よりも、Marker1501およびCUHK03データ上で約5%高いmAPを達成する。
論文 参考訳(メタデータ) (2023-03-11T07:20:32Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Is Deep Image Prior in Need of a Good Education? [57.3399060347311]
画像再構成に有効な先行画像として, 奥行き画像が導入された。
その印象的な再建性にもかかわらず、学習技術や伝統的な再建技術と比べてアプローチは遅い。
計算課題に対処する2段階の学習パラダイムを開発する。
論文 参考訳(メタデータ) (2021-11-23T15:08:26Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。