論文の概要: Understanding the Multi-modal Prompts of the Pre-trained Vision-Language
Model
- arxiv url: http://arxiv.org/abs/2312.11570v3
- Date: Tue, 12 Mar 2024 01:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:48:21.683055
- Title: Understanding the Multi-modal Prompts of the Pre-trained Vision-Language
Model
- Title(参考訳): 事前学習型視覚言語モデルのマルチモーダルプロンプトの理解
- Authors: Shuailei Ma, Chen-Wei Xie, Ying Wei, Siyang Sun, Jiaqi Fan, Xiaoyi
Bao, Yuxin Guo, Yun Zheng
- Abstract要約: 我々は、以下の質問をすることで、マルチモーダルプロンプトを直接分析する。
$(i)$ 学習したマルチモーダルはどのように認識性能を向上させるのか?
$(ii)$ マルチモーダルプロンプトは何を学習しますか?
- 参考スコア(独自算出の注目度): 15.828023370166411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has emerged as an efficient alternative for fine-tuning
foundational models, such as CLIP, for various downstream tasks. However, there
is no work that provides a comprehensive explanation for the working mechanism
of the multi-modal prompts. In this paper, we conduct a direct analysis of the
multi-modal prompts by asking the following questions: $(i)$ How do the learned
multi-modal prompts improve the recognition performance? $(ii)$ What do the
multi-modal prompts learn? To answer these questions, we begin by isolating the
component of the formula where the prompt influences the calculation of
self-attention at each layer in two distinct ways, \ie, $(1)$ introducing
prompt embeddings makes the $[cls]$ token focus on foreground objects. $(2)$
the prompts learn a bias term during the update of token embeddings, allowing
the model to adapt to the target domain. Subsequently, we conduct extensive
visualization and statistical experiments on the eleven diverse downstream
recognition datasets. From the experiments, we reveal that the learned prompts
improve the performance mainly through the second way, which acts as the
dataset bias to improve the recognition performance of the pre-trained model on
the corresponding dataset. Meanwhile, we propose the bias tuning way to
validate our finding. With a deeper understanding of the multi-modal prompt, we
hope our work can inspire new and solid research in this direction.
- Abstract(参考訳): プロンプト学習は、様々な下流タスクのためのCLIPなどの微調整基盤モデルの効率的な代替手段として登場した。
しかし,マルチモーダルプロンプトの動作メカニズムを包括的に説明する作業は行われていない。
本稿では,マルチモーダルプロンプトの直接分析を行い,以下の質問を行う。
(i)$ 学習したマルチモーダルプロンプトは認識性能を改善するか?
$
(ii)$マルチモーダルプロンプトは何を学ぶのか?
これらの質問に答えるために、各層における自己注意の計算にプロンプトが影響を及ぼす公式のコンポーネントを2つの異なる方法で分離することから始めます。
$(2)$ プロンプトはトークン埋め込みの更新中にバイアス項を学習し、モデルがターゲットドメインに適応できるようにする。
その後,11種類のダウンストリーム認識データセットを広範囲に可視化し,統計実験を行った。
実験結果から,学習が主に第2の方法で,データセットバイアスとして機能し,事前学習したモデルの認識性能を向上させることを明らかにする。
一方,我々は,発見を検証するためのバイアスチューニング手法を提案する。
マルチモーダルなプロンプトをより深く理解することで、私たちの研究が、この方向への新しい確固たる研究を刺激できることを願っています。
関連論文リスト
- ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T03:33:46Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Instance-aware Prompt Learning for Language Understanding and Generation [49.22899822734549]
本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス対応プロンプト学習手法を提案する。
提案手法は,SuperGLUE数ショット学習ベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-18T17:03:25Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。