論文の概要: COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2204.07441v1
- Date: Fri, 15 Apr 2022 12:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 15:01:59.890569
- Title: COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval
- Title(参考訳): COTS: クロスモーダル検索のためのコラボレーティブな2ストリームビジョンランゲージ事前学習モデル
- Authors: Haoyu Lu and Nanyi Fei and Yuqi Huo and Yizhao Gao and Zhiwu Lu and
Ji-Rong Wen
- Abstract要約: 画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
- 参考スコア(独自算出の注目度): 59.15034487974549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale single-stream pre-training has shown dramatic performance in
image-text retrieval. Regrettably, it faces low inference efficiency due to
heavy attention layers. Recently, two-stream methods like CLIP and ALIGN with
high inference efficiency have also shown promising performance, however, they
only consider instance-level alignment between the two streams (thus there is
still room for improvement). To overcome these limitations, we propose a novel
COllaborative Two-Stream vision-language pretraining model termed COTS for
image-text retrieval by enhancing cross-modal interaction. In addition to
instance level alignment via momentum contrastive learning, we leverage two
extra levels of cross-modal interactions in our COTS: (1) Token-level
interaction - a masked visionlanguage modeling (MVLM) learning objective is
devised without using a cross-stream network module, where variational
autoencoder is imposed on the visual encoder to generate visual tokens for each
image. (2) Task-level interaction - a KL-alignment learning objective is
devised between text-to-image and image-to-text retrieval tasks, where the
probability distribution per task is computed with the negative queues in
momentum contrastive learning. Under a fair comparison setting, our COTS
achieves the highest performance among all two-stream methods and comparable
performance (but with 10,800X faster in inference) w.r.t. the latest
single-stream methods. Importantly, our COTS is also applicable to
text-to-video retrieval, yielding new state-ofthe-art on the widely-used
MSR-VTT dataset.
- Abstract(参考訳): 大規模シングルストリーム事前学習は画像テキスト検索において劇的な性能を示した。
注意層が重いため、推論効率が低い。
近年、推論効率の高いCLIPやALIGNのような2ストリーム方式も有望な性能を示しているが、2ストリーム間のインスタンスレベルのアライメントしか考慮していない(改善の余地はある)。
このような制約を克服するために,クロスモーダルインタラクションを向上し,画像テキスト検索のためのCOTSと呼ばれる新しいコラボレーティブ2ストリーム言語事前学習モデルを提案する。
モーメント・コントラッシブ・ラーニングによるインスタンスレベルのアライメントに加えて、COTSにおける2つの追加レベルのクロスモーダル・インタラクションを利用する: 1) 視覚レベルの相互作用 - マスク付き視覚言語モデリング(MVLM)学習目的を、クロスストリーム・ネットワークモジュールを使わずに考案し、視覚エンコーダに可変オートエンコーダを課し、各画像の視覚トークンを生成する。
2)タスクレベルのインタラクション - 運動量比較学習において,タスク毎の確率分布を負の待ち行列で計算する,テキスト対画像検索タスクと画像対テキスト検索タスクのkl関係学習目標を考案した。
公平な比較設定の下では、COTSは、最新のシングルストリームメソッドと同等の性能(推論では10,800倍高速)を達成しています。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらす。
関連論文リスト
- Cross-Modal Few-Shot Learning with Second-Order Neural Ordinary Differential Equations [26.46540034821343]
本稿では,2次ニューラル正規微分方程式(Second-Order NODEs)を利用したクロスモーダル数ショット学習法であるSONOを紹介する。
我々の2階のアプローチは、より広範な関数のクラスを近似することができ、モデルの表現力と特徴一般化能力を高めることができる。
テキストベースの画像拡張を利用して、CLIPの頑健な画像テキスト相関を利用して、トレーニングデータを大幅に強化する。
論文 参考訳(メタデータ) (2024-12-20T11:42:41Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple
Levels [35.57369098866317]
大規模画像テキストペアによる視覚言語事前学習では,クロスモーダル表現の学習が急速に進展している。
画像とテキストの表現の低レベルと高レベルのセマンティクスを協調的に調整する新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-14T02:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。