論文の概要: Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning
- arxiv url: http://arxiv.org/abs/2501.01120v1
- Date: Thu, 02 Jan 2025 07:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:24.557643
- Title: Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning
- Title(参考訳): 不完全なマルチモーダル学習のための検索強化動的プロンプトチューニング
- Authors: Jian Lang, Zhangtao Cheng, Ting Zhong, Fan Zhou,
- Abstract要約: 本稿では,Retrieval-AuGmented Dynamic Prompt TuningフレームワークであるRAGPTを提案する。
RAGPTは、(I)マルチチャネルレトリバー、(II)モダリティ生成器、(III)コンテキスト認識プロンプトの3つのモジュールから構成される。
3つの実世界のデータセットで実施された実験によると、RAGPTは不完全なモダリティ問題に対処する際の全ての競争ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 27.867369806400834
- License:
- Abstract: Multimodal learning with incomplete modality is practical and challenging. Recently, researchers have focused on enhancing the robustness of pre-trained MultiModal Transformers (MMTs) under missing modality conditions by applying learnable prompts. However, these prompt-based methods face several limitations: (1) incomplete modalities provide restricted modal cues for task-specific inference, (2) dummy imputation for missing content causes information loss and introduces noise, and (3) static prompts are instance-agnostic, offering limited knowledge for instances with various missing conditions. To address these issues, we propose RAGPT, a novel Retrieval-AuGmented dynamic Prompt Tuning framework. RAGPT comprises three modules: (I) the multi-channel retriever, which identifies similar instances through a within-modality retrieval strategy, (II) the missing modality generator, which recovers missing information using retrieved contexts, and (III) the context-aware prompter, which captures contextual knowledge from relevant instances and generates dynamic prompts to largely enhance the MMT's robustness. Extensive experiments conducted on three real-world datasets show that RAGPT consistently outperforms all competitive baselines in handling incomplete modality problems. The code of our work and prompt-based baselines is available at https://github.com/Jian-Lang/RAGPT.
- Abstract(参考訳): 不完全なモダリティを持つマルチモーダル学習は実践的で難しい。
近年,学習可能なプロンプトを適用することで,学習済みマルチモーダルトランスフォーマー(MMT)のロバスト性向上に重点を置いている。
しかし、これらのプロンプトベースの手法は、(1)不完全なモダリティはタスク固有の推論のために制限されたモーダルキューを提供し、(2)不足コンテンツに対するダミー命令は情報損失を生じ、ノイズを生じさせ、(3)静的プロンプトはインスタンスに依存しないため、様々な障害のあるインスタンスに対して限られた知識を提供する。
これらの問題に対処するため、我々は新しいRetrieval-AuGmented Dynamic Prompt TuningフレームワークであるRAGPTを提案する。
RAGPTは3つのモジュールから構成される: (I) 類似のインスタンスをモダリティ内検索戦略を通じて識別するマルチチャネルレトリバー、 (II) 検索したコンテキストを用いて欠落情報を復元する欠落モード生成器、 (III) 関連するインスタンスからコンテキスト知識をキャプチャし、MMTの堅牢性を大幅に向上する動的プロンプトを生成するコンテキスト認識プロンプト。
3つの実世界のデータセットで実施された大規模な実験は、RAGPTが不完全なモダリティ問題に対処する際の全ての競争ベースラインを一貫して上回っていることを示している。
私たちの仕事のコードとプロンプトベースのベースラインはhttps://github.com/Jian-Lang/RAGPT.comで公開されています。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T03:33:46Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Modality-missing RGBT Tracking: Invertible Prompt Learning and High-quality Benchmarks [21.139161163767884]
モーダル情報は、熱センサーの自己校正やデータ伝送誤差などの要因によって見逃される可能性がある。
本稿では、コンテンツ保存プロンプトをよく訓練された追跡モデルに統合する、新しい非可逆的プロンプト学習手法を提案する。
提案手法は,最先端手法と比較して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-12-25T11:39:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Multimodal Prompting with Missing Modalities for Visual Recognition [40.961534960897595]
視覚認識のためのマルチモーダル学習における課題として,1)実世界の状況下でのトレーニングやテストにおいてモダリティの欠如が発生した場合,2)重変圧器モデルの微調整に計算資源が利用できない場合,の2つを挙げる。
具体的には、モデル全体のトレーニングに比べて学習可能なパラメータが1%未満であるにもかかわらず、一般的なモダリティケースを扱うために、モダリティ許容プロンプトをマルチモーダルトランスフォーマーにプラグインすることができる。
論文 参考訳(メタデータ) (2023-03-06T18:54:46Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast
and Accurate Inference on Missing Modality Sequences [32.42505193560884]
本稿では,MM-Align という新しい手法を提案する。
MM-Alignは、モダリティシーケンス間のアライメントのダイナミクスをキャプチャし、模倣することを学ぶ。
提案手法は, より正確で高速な推定を行い, 種々の不足条件下での過度適合を緩和することができる。
論文 参考訳(メタデータ) (2022-10-23T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。