論文の概要: Decoupled Multimodal Prototypes for Visual Recognition with Missing Modalities
- arxiv url: http://arxiv.org/abs/2505.08283v1
- Date: Tue, 13 May 2025 06:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.458005
- Title: Decoupled Multimodal Prototypes for Visual Recognition with Missing Modalities
- Title(参考訳): モダリティの欠如を考慮した視覚認識のためのデカップリング型マルチモーダルプロトタイプ
- Authors: Jueqing Lu, Yuanyuan Qi, Xiaohao Yang, Shujie Zhou, Lan Du,
- Abstract要約: マルチモーダル学習は、複数のデータモダリティから情報を知覚し、理解することで、ディープラーニングモデルを強化する。
既存のアプローチのほとんどは、現実のアプリケーションでしばしば失敗する前提として、すべてのモダリティの可用性を前提としています。
最近の研究は、欠落したモダリティによる性能劣化を軽減するために学習可能な欠落事例認識プロンプトを導入している。
個別のモダリティに適合したクラスワイドプロトタイプを欠落ケース認識する新しいデカップリング型プロトタイプベース出力ヘッドを提案する。
- 参考スコア(独自算出の注目度): 3.88369051454137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning enhances deep learning models by enabling them to perceive and understand information from multiple data modalities, such as visual and textual inputs. However, most existing approaches assume the availability of all modalities, an assumption that often fails in real-world applications. Recent works have introduced learnable missing-case-aware prompts to mitigate performance degradation caused by missing modalities while reducing the need for extensive model fine-tuning. Building upon the effectiveness of missing-case-aware handling for missing modalities, we propose a novel decoupled prototype-based output head, which leverages missing-case-aware class-wise prototypes tailored for each individual modality. This approach dynamically adapts to different missing modality scenarios and can be seamlessly integrated with existing prompt-based methods. Extensive experiments demonstrate that our proposed output head significantly improves performance across a wide range of missing-modality scenarios and varying missing rates.
- Abstract(参考訳): マルチモーダル学習は、視覚やテキスト入力などの複数のデータモーダルからの情報を知覚し、理解することで、ディープラーニングモデルを強化する。
しかし、既存のほとんどのアプローチは、実世界のアプリケーションでしばしば失敗する仮定である全てのモダリティの可用性を前提としています。
最近の研究は、学習可能な欠落事例認識のプロンプトを導入し、モダリティの欠如による性能劣化を軽減し、広範囲なモデル微調整の必要性を軽減している。
そこで本研究では, 個別のモダリティに合わせて, 個別のモダリティに適合した, 欠落事例対応のクラスワイドプロトタイプを活用した, 新規なデカップリング型プロトタイプベース出力ヘッドを提案する。
このアプローチは、異なる欠落したモダリティシナリオに動的に適応し、既存のプロンプトベースのメソッドとシームレスに統合することができる。
大規模な実験により,提案した出力ヘッドは,多種多様なモダリティシナリオで性能を著しく向上し,欠落率も変化することが示された。
関連論文リスト
- Deep Correlated Prompting for Visual Recognition with Missing Modalities [22.40271366031256]
大規模マルチモーダルモデルでは、ペア化された大規模マルチモーダルトレーニングデータを用いて、一連のタスクに対して優れた性能を示す。
しかし、プライバシーの制約やコレクションの難しさのために、この単純な仮定が現実の世界で常に成り立つとは限らない。
そこで本研究では,大規模事前学習型マルチモーダルモデルを用いて,欠落事例を異なる入力タイプとして扱うことで,欠落したモダリティシナリオに対処する学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T05:28:43Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。