論文の概要: Towards Robust Multimodal Prompting With Missing Modalities
- arxiv url: http://arxiv.org/abs/2312.15890v2
- Date: Wed, 27 Dec 2023 03:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:42:04.210922
- Title: Towards Robust Multimodal Prompting With Missing Modalities
- Title(参考訳): モダリティを欠くロバストなマルチモーダルプロンプトに向けて
- Authors: Jaehyuk Jang, Yooseung Wang, Changick Kim
- Abstract要約: マルチモーダルプロンプトは、すべての欠落したモダリティケースに対して学習可能な欠落認識プロンプトを導入する。
トレーニングと推論の間にモダリティの設定が欠けているシナリオでは、堅牢性に欠けています。
これらの課題に対処するために,単純かつ効果的なプロンプト設計を提案する。
- 参考スコア(独自算出の注目度): 22.176372579439356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multimodal prompting, which introduces learnable missing-aware
prompts for all missing modality cases, has exhibited impressive performance.
However, it encounters two critical issues: 1) The number of prompts grows
exponentially as the number of modalities increases; and 2) It lacks robustness
in scenarios with different missing modality settings between training and
inference. In this paper, we propose a simple yet effective prompt design to
address these challenges. Instead of using missing-aware prompts, we utilize
prompts as modality-specific tokens, enabling them to capture the unique
characteristics of each modality. Furthermore, our prompt design leverages
orthogonality between prompts as a key element to learn distinct information
across different modalities and promote diversity in the learned
representations. Extensive experiments demonstrate that our prompt design
enhances both performance and robustness while reducing the number of prompts.
- Abstract(参考訳): 近年,すべてのモダリティケースに対して学習可能な欠落認識プロンプトを導入するマルチモーダルプロンプトが注目されている。
しかし、2つの重大な問題に直面している。
1)プロンプトの数は,モダリティの数が増えるにつれて指数関数的に増加する。
2)トレーニングと推論の間にモダリティの異なるシナリオでは堅牢性に欠ける。
本稿では,これらの課題に対処するための簡易かつ効果的なプロンプトデザインを提案する。
欠落認識のプロンプトを使う代わりに、プロンプトをモダリティ固有のトークンとして利用し、各モダリティのユニークな特徴を捉えることができる。
さらに,プロンプト間の直交性をキー要素として活用し,異なるモダリティにまたがる異なる情報を学び,学習表現の多様性を促進する。
広範な実験によって、プロンプト数を減らしながら、プロンプト設計がパフォーマンスとロバスト性の両方を向上できることが示されました。
関連論文リスト
- Understanding the Multi-modal Prompts of the Pre-trained Vision-Language
Model [15.828023370166411]
我々は、以下の質問をすることで、マルチモーダルプロンプトを直接分析する。
$(i)$ 学習したマルチモーダルはどのように認識性能を向上させるのか?
$(ii)$ マルチモーダルプロンプトは何を学習しますか?
論文 参考訳(メタデータ) (2023-12-18T04:49:03Z) - Tuning Multi-mode Token-level Prompt Alignment across Modalities [48.39511580746271]
本稿では,多モードのトークンレベルチューニングフレームワークを提案し,モジュール間のプロンプトトークンの集合を学習・調整する。
具体的には、1) 多様な意味表現を保証するマルチモードプロンプト発見、2) トークンレベルのアライメント、そして、きめ細かい類似性を探索する。
一般的な画像認識ベンチマークの実験では、我々のアプローチのより優れた一般化と少ないショット能力を示している。
論文 参考訳(メタデータ) (2023-09-25T03:20:09Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [26.74405536334062]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Multimodal Prompting with Missing Modalities for Visual Recognition [40.961534960897595]
視覚認識のためのマルチモーダル学習における課題として,1)実世界の状況下でのトレーニングやテストにおいてモダリティの欠如が発生した場合,2)重変圧器モデルの微調整に計算資源が利用できない場合,の2つを挙げる。
具体的には、モデル全体のトレーニングに比べて学習可能なパラメータが1%未満であるにもかかわらず、一般的なモダリティケースを扱うために、モダリティ許容プロンプトをマルチモーダルトランスフォーマーにプラグインすることができる。
論文 参考訳(メタデータ) (2023-03-06T18:54:46Z) - Demystifying Prompts in Language Models via Perplexity Estimation [100.43627541756524]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - MetaPrompting: Learning to Learn Better Prompts [52.914694884515534]
本稿では,メタプロンプトと呼ばれるソフトプロンプト手法を提案する。
大規模な実験は、MetaPromptingが4つの異なるデータセットに大きな改善をもたらすことを示している。
論文 参考訳(メタデータ) (2022-09-23T09:01:05Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Instance-aware Prompt Learning for Language Understanding and Generation [49.22899822734549]
本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス対応プロンプト学習手法を提案する。
提案手法は,SuperGLUE数ショット学習ベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-18T17:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。