論文の概要: CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training
- arxiv url: http://arxiv.org/abs/2410.12595v1
- Date: Wed, 16 Oct 2024 14:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:09.462394
- Title: CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training
- Title(参考訳): CMAL:ビジョンランゲージ事前学習のための新しいクロスモーダル・アソシエイト学習フレームワーク
- Authors: Zhiyuan Ma, Jianjun Li, Guohui Li, Kaiyan Huang,
- Abstract要約: 本稿では,係留点検出と相互関連学習を併用したクロスモーダル・アソシエイト学習フレームワークCMALを提案する。
CMALは、4つの共通下流視覚言語タスクにおいて、従来のCMCLベースの手法と競合する性能を達成している。
- 参考スコア(独自算出の注目度): 17.27516384073838
- License:
- Abstract: With the flourishing of social media platforms, vision-language pre-training (VLP) recently has received great attention and many remarkable progresses have been achieved. The success of VLP largely benefits from the information complementation and enhancement between different modalities. However, most of recent studies focus on cross-modal contrastive learning (CMCL) to promote image-text alignment by pulling embeddings of positive sample pairs together while pushing those of negative pairs apart, which ignores the natural asymmetry property between different modalities and requires large-scale image-text corpus to achieve arduous progress. To mitigate this predicament, we propose CMAL, a Cross-Modal Associative Learning framework with anchor points detection and cross-modal associative learning for VLP. Specifically, we first respectively embed visual objects and textual tokens into separate hypersphere spaces to learn intra-modal hidden features, and then design a cross-modal associative prompt layer to perform anchor point masking and swap feature filling for constructing a hybrid cross-modal associative prompt. Afterwards, we exploit a unified semantic encoder to learn their cross-modal interactive features for context adaptation. Finally, we design an associative mapping classification layer to learn potential associative mappings between modalities at anchor points, within which we develop a fresh self-supervised associative mapping classification task to boost CMAL's performance. Experimental results verify the effectiveness of CMAL, showing that it achieves competitive performance against previous CMCL-based methods on four common downstream vision-and-language tasks, with significantly fewer corpus. Especially, CMAL obtains new state-of-the-art results on SNLI-VE and REC (testA).
- Abstract(参考訳): ソーシャルメディアプラットフォームの普及に伴い、視覚言語事前学習(VLP)が注目され、多くの顕著な進歩が達成されている。
VLPの成功は主に、異なるモダリティ間の情報補完と強化の恩恵を受けている。
しかし、近年のほとんどの研究は、正のサンプル対の埋め込みを引っ掛けながら負のペアの埋め込みを分離することで画像テキストアライメントを促進するクロスモーダル・コントラッシブ・ラーニング(CMCL)に焦点を当てており、これは異なるモダリティ間の自然な非対称性を無視し、大きな画像テキストコーパスを必要とする。
そこで本研究では,VLP のアンカー点検出と相互関連学習を行うクロスモーダル・アソシエイト学習フレームワーク CMAL を提案する。
具体的には、まず視覚オブジェクトとテキストトークンを別個のハイパースフィア空間に埋め込んで、モダル内隠れ特徴を学習し、次に、ハイブリット・クロスモーダル・アソシエーション・プロンプトを構成するためにアンカー・ポイントマスキングとスワップ・フィーチャー・フィリングを行うクロスモーダル・アソシエーション・プロンプト・レイヤを設計する。
その後、統合セマンティックエンコーダを用いて、コンテキスト適応のためのモード間対話的特徴を学習する。
最後に、アソシエイトマッピング分類層を設計し、アンカーポイントにおけるモダリティ間の潜在的なアソシエイトマッピングを学習し、そこで、CMALの性能を高めるために、新たな自己教師付きアソシエイトマッピング分類タスクを開発する。
実験によりCMALの有効性が検証され,従来のCMCL法と競合する性能を示した。
特に、CMALはSNLI-VEとREC(testA)で新たな最先端結果を得る。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Deeply Coupled Cross-Modal Prompt Learning [25.813769028565567]
CLIPに基づくDeeply coupled Cross-modal Prompt Learning (DCP)法を提案する。
DCPは、CMPA(Cross-Modal Prompt Attention)メカニズムにより、視覚と言語の間の相互作用を柔軟に許容する。
そして、11の画像分類データセットの総合的な数ショット学習実験を行い、ドメインシフトへの適応も分析する。
論文 参考訳(メタデータ) (2023-05-29T06:26:52Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。