論文の概要: Multi-modal Alignment using Representation Codebook
- arxiv url: http://arxiv.org/abs/2203.00048v1
- Date: Mon, 28 Feb 2022 19:26:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 13:56:15.020962
- Title: Multi-modal Alignment using Representation Codebook
- Title(参考訳): Representation Codebook を用いたマルチモーダルアライメント
- Authors: Jiali Duan, Liqun Chen, Son Tran, Jinyu Yang, Yi Xu, Belinda Zeng,
Chenyang Tao, Trishul Chilimbi
- Abstract要約: 我々は、画像とテキストを同一エンティティの2つの"ビュー"として扱い、それらをクラスタセンター(コードブック)の辞書で区切られた共同視覚言語符号化空間にエンコードする。
学習プロセスをさらに円滑にするために,教師が学生の学習を指導する,教師中心の蒸留パラダイムを採用する。
- 参考スコア(独自算出の注目度): 25.088878329282792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning signals from different modalities is an important step in
vision-language representation learning as it affects the performance of later
stages such as cross-modality fusion. Since image and text typically reside in
different regions of the feature space, directly aligning them at instance
level is challenging especially when features are still evolving during
training. In this paper, we propose to align at a higher and more stable level
using cluster representation. Specifically, we treat image and text as two
"views" of the same entity, and encode them into a joint vision-language coding
space spanned by a dictionary of cluster centers (codebook). We contrast
positive and negative samples via their cluster assignments while
simultaneously optimizing the cluster centers. To further smooth out the
learning process, we adopt a teacher-student distillation paradigm, where the
momentum teacher of one view guides the student learning of the other. We
evaluated our approach on common vision language benchmarks and obtain new SoTA
on zero-shot cross modality retrieval while being competitive on various other
transfer tasks.
- Abstract(参考訳): 異なるモダリティからの信号の調整は、クロスモダリティ融合のような後段のパフォーマンスに影響を与えるため、視覚言語表現学習の重要なステップである。
画像とテキストは通常、機能空間の異なる領域に存在するため、特にトレーニング中に機能がまだ進化している場合、インスタンスレベルで直接整列することは困難である。
本稿では,クラスタ表現を用いて,より高い,より安定したレベルに整列することを提案する。
具体的には、画像とテキストを同一エンティティの2つの「ビュー」として扱い、それらをクラスタセンター辞書(コードブック)にまたがる共同視覚言語符号化空間にエンコードする。
クラスタ割り当てを同時に最適化しながら,正と負のサンプルをクラスタ割り当てで比較する。
さらに, 学習プロセスを円滑にするために, 教師・生徒の蒸留パラダイムを採用し, 一つの視点のモーメント教師が生徒の学習を指導する。
我々は,共通ビジョン言語ベンチマークに対するアプローチを評価し,他の様々なトランスファータスクと競合しながら,ゼロショットのクロスモーダル検索において新しいSoTAを得る。
関連論文リスト
- Dual-Level Cross-Modal Contrastive Clustering [4.083185193413678]
我々はDXMC(Dual-level Cross-Modal Contrastive Clustering)という画像クラスタリングフラムワークを提案する。
画像とテキストのペアを生成するために使用される意味空間を構築するために、外部テキスト情報が導入される。
予め訓練された画像とテキストエンコーダに画像とテキストのペアをそれぞれ送信し、4つのよく設計されたネットワークに次々に供給される画像とテキストの埋め込みを得る。
論文 参考訳(メタデータ) (2024-09-06T18:49:45Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。