論文の概要: Deeply Coupled Cross-Modal Prompt Learning
- arxiv url: http://arxiv.org/abs/2305.17903v3
- Date: Wed, 6 Dec 2023 15:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 19:03:10.587809
- Title: Deeply Coupled Cross-Modal Prompt Learning
- Title(参考訳): 密結合型クロスモーダル・プロンプト学習
- Authors: Xuejing Liu, Wei Tang, Jinghui Lu, Rui Zhao, Zhaojun Guo and Fei Tan
- Abstract要約: CLIPに基づくDeeply coupled Cross-modal Prompt Learning (DCP)法を提案する。
DCPは、CMPA(Cross-Modal Prompt Attention)メカニズムにより、視覚と言語の間の相互作用を柔軟に許容する。
そして、11の画像分類データセットの総合的な数ショット学習実験を行い、ドメインシフトへの適応も分析する。
- 参考スコア(独自算出の注目度): 25.813769028565567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal foundation models (e.g., CLIP) have
excelled in zero-shot generalization. Prompt tuning involved in the knowledge
transfer from foundation models to downstream tasks has gained significant
attention recently. Existing prompt-tuning methods in cross-modal learning,
however, either solely focus on language branch, or learn vision-language
interaction in a shallow mechanism. In this context, we propose a Deeply
coupled Cross-modal Prompt learning (DCP) method based on CLIP. DCP flexibly
accommodates the interplay between vision and language with a Cross-Modal
Prompt Attention (CMPA) mechanism, which enables the mutual exchange of
respective representation through a well-connected multi-head attention module
progressively and strongly. We then conduct comprehensive few-shot learning
experiments on 11 image classification datasets and analyze the robustness to
domain shift as well. Thorough experimental analysis evidently demonstrates the
superb few-shot generalization and compelling domain adaption capacity of a
well-executed DCP. The code can be found at https://github.com/GingL/CMPA.
- Abstract(参考訳): マルチモーダル基礎モデル(例えばCLIP)の最近の進歩はゼロショットの一般化に優れている。
近年,基礎モデルから下流タスクへの知識伝達に関わるプロンプトチューニングが注目されている。
しかし、モーダル間学習における既存のプロンプトチューニング手法は、言語分岐のみに焦点を当てるか、浅いメカニズムで視覚-言語相互作用を学ぶ。
この文脈では、CLIPに基づくDeeply coupled Cross-modal Prompt Learning (DCP)法を提案する。
DCPは、視覚と言語間の相互作用をCMPA(Cross-Modal Prompt Attention)機構で柔軟に調整し、適切に接続されたマルチヘッドアテンションモジュールを通じて各表現の相互交換を可能にする。
そして、11の画像分類データセットの総合的な数ショット学習実験を行い、ドメインシフトに対する堅牢性も分析する。
徹底した実験的分析は、非常に数ショットの一般化と、十分に実行されたDCPの説得力のあるドメイン適応能力を示す。
コードはhttps://github.com/GingL/CMPAで見ることができる。
関連論文リスト
- CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training [17.27516384073838]
本稿では,係留点検出と相互関連学習を併用したクロスモーダル・アソシエイト学習フレームワークCMALを提案する。
CMALは、4つの共通下流視覚言語タスクにおいて、従来のCMCLベースの手法と競合する性能を達成している。
論文 参考訳(メタデータ) (2024-10-16T14:12:26Z) - CP-Prompt: Composition-Based Cross-modal Prompting for Domain-Incremental Continual Learning [15.393734346359064]
クロスモーダルドメイン増分学習(DIL)の主な課題は、学習モデルが新しいデータから継続的に学習できるようにすることである。
本稿では,制約パラメータをトレーニングし,事前学習したモデルに新しいドメインを学習させる,シンプルで効果的なフレームワークCP-Promptを提案する。
論文 参考訳(メタデータ) (2024-07-22T04:07:12Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。