論文の概要: Synergistic Prompting for Robust Visual Recognition with Missing Modalities
- arxiv url: http://arxiv.org/abs/2507.07802v1
- Date: Thu, 10 Jul 2025 14:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.442169
- Title: Synergistic Prompting for Robust Visual Recognition with Missing Modalities
- Title(参考訳): モダリティの欠如によるロバストな視覚認識のための相乗的プロンプト
- Authors: Zhihui Zhang, Luanyuan Dai, Qika Lin, Yunfeng Diao, Guangyin Jin, Yufei Guo, Jing Zhang, Xiaoshuai Hao,
- Abstract要約: 大規模マルチモーダルモデルは様々な視覚認識タスクにおいて顕著な性能を示した。
欠落や不完全なモダリティ入力の存在は、しばしば大きなパフォーマンス劣化を引き起こす。
モダリティの欠如を伴い、頑健な視覚認識を実現するための新しいSynergistic Promptingフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.821274074204082
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale multi-modal models have demonstrated remarkable performance across various visual recognition tasks by leveraging extensive paired multi-modal training data. However, in real-world applications, the presence of missing or incomplete modality inputs often leads to significant performance degradation. Recent research has focused on prompt-based strategies to tackle this issue; however, existing methods are hindered by two major limitations: (1) static prompts lack the flexibility to adapt to varying missing-data conditions, and (2) basic prompt-tuning methods struggle to ensure reliable performance when critical modalities are missing.To address these challenges, we propose a novel Synergistic Prompting (SyP) framework for robust visual recognition with missing modalities. The proposed SyP introduces two key innovations: (I) a Dynamic Adapter, which computes adaptive scaling factors to dynamically generate prompts, replacing static parameters for flexible multi-modal adaptation, and (II) a Synergistic Prompting Strategy, which combines static and dynamic prompts to balance information across modalities, ensuring robust reasoning even when key modalities are missing. The proposed SyP achieves significant performance improvements over existing approaches across three widely-used visual recognition datasets, demonstrating robustness under diverse missing rates and conditions. Extensive experiments and ablation studies validate its effectiveness in handling missing modalities, highlighting its superior adaptability and reliability.
- Abstract(参考訳): 大規模マルチモーダルモデルでは、様々な視覚認識タスクにおいて、広範囲なペア化されたマルチモーダルトレーニングデータを活用することで、顕著な性能を示す。
しかし、現実世界のアプリケーションでは、欠落や不完全なモダリティ入力が存在するため、しばしば性能が著しく低下する。
最近の研究は、この問題に対処するためのプロンプトベースの戦略に重点を置いているが、既存の手法は、(1)欠落したデータ条件に適応する柔軟性に欠ける静的プロンプトと(2)重要なモダリティが欠如している場合に信頼性の高いパフォーマンスを確保するための基本的なプロンプトチューニング手法の2つの大きな制限によって妨げられている。
提案したSyPは2つの重要なイノベーションを紹介している: (I) 適応スケーリング因子を計算してプロンプトを動的に生成するDynamic Adapter、) フレキシブルなマルチモーダル適応のために静的パラメータを置き換えるSynergistic Prompting Strategy、そして (II) 静的プロンプトと動的プロンプトを組み合わせたSynergistic Prompting Strategy。
提案したSyPは,広範に使用されている3つの視覚的認識データセットに対する既存のアプローチに比べて,大幅なパフォーマンス向上を実現している。
大規模な実験とアブレーション研究は、欠落したモダリティを扱う上での有効性を検証し、その優れた適応性と信頼性を強調した。
関連論文リスト
- Disentangling and Generating Modalities for Recommendation in Missing Modality Scenarios [21.73914052076956]
本稿では,モダリティを欠くシナリオに対して,DGMレコメンダ(Disentangling and Generating Modality Recommender)を提案する。
DGMRecは、情報ベースの観点から、モダリティの特徴を一般的な、特定のモダリティの特徴に分解する。
挑戦的なシナリオでは、最先端のMSSよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-04-23T02:04:14Z) - Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning [27.867369806400834]
本稿では,Retrieval-AuGmented Dynamic Prompt TuningフレームワークであるRAGPTを提案する。
RAGPTは、(I)マルチチャネルレトリバー、(II)モダリティ生成器、(III)コンテキスト認識プロンプトの3つのモジュールから構成される。
3つの実世界のデータセットで実施された実験によると、RAGPTは不完全なモダリティ問題に対処する際の全ての競争ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-02T07:39:48Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Flexible-modal Deception Detection with Audio-Visual Adapter [20.6514221670249]
本稿では,2つのモーダルの時間的特徴を効率的に融合する新しい枠組みを提案する。
2つのベンチマークデータセットを用いて実験を行った結果,提案手法は優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-02-11T15:47:20Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。