論文の概要: Towards Robust Multimodal Emotion Recognition under Missing Modalities and Distribution Shifts
- arxiv url: http://arxiv.org/abs/2506.10452v1
- Date: Thu, 12 Jun 2025 07:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.637761
- Title: Towards Robust Multimodal Emotion Recognition under Missing Modalities and Distribution Shifts
- Title(参考訳): 失われたモーダリティと分布変化下におけるロバストなマルチモーダル感情認識に向けて
- Authors: Guowei Zhong, Ruohong Huan, Mingzhen Wu, Ronghua Liang, Peng Chen,
- Abstract要約: 本稿では,モダリティの欠如とOF-Distribution(OOD)データの両方を同時に扱うための新しいフレームワークを提案する。
CIDerはMSSD(Model-Specific Self-Distillation)モジュールとMACI(Model-Agnostic Causal Inference)モジュールという2つの重要なコンポーネントを統合している。
実験の結果、CIDerはRMFMとOODの両方のシナリオでロバストな性能を示し、パラメータは少なく、最先端の手法に比べて訓練が速い。
- 参考スコア(独自算出の注目度): 8.259321830040204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Emotion Recognition (MER) face challenges in addressing both modality missing and Out-Of-Distribution (OOD) data simultaneously. Existing methods often rely on specific models or introduce excessive parameters, which limits their practicality. To address these issues, we propose a novel robust MER framework, Causal Inference Distiller (CIDer), and introduce a new task, Random Modality Feature Missing (RMFM), to generalize the definition of modality missing. CIDer integrates two key components: a Model-Specific Self-Distillation (MSSD) module and a Model-Agnostic Causal Inference (MACI) module. MSSD enhances robustness under the RMFM task through a weight-sharing self-distillation approach applied across low-level features, attention maps, and high-level representations. Additionally, a Word-level Self-aligned Attention Module (WSAM) reduces computational complexity, while a Multimodal Composite Transformer (MCT) facilitates efficient multimodal fusion. To tackle OOD challenges, MACI employs a tailored causal graph to mitigate label and language biases using a Multimodal Causal Module (MCM) and fine-grained counterfactual texts. Notably, MACI can independently enhance OOD generalization with minimal additional parameters. Furthermore, we also introduce the new repartitioned MER OOD datasets. Experimental results demonstrate that CIDer achieves robust performance in both RMFM and OOD scenarios, with fewer parameters and faster training compared to state-of-the-art methods. The implementation of this work is publicly accessible at https://github.com/gw-zhong/CIDer.
- Abstract(参考訳): マルチモーダル感情認識(MER)の最近の進歩は、モダリティの欠如とOF-Distribution(OOD)データの両方に同時に対処する上で、課題に直面している。
既存のメソッドは、しばしば特定のモデルに依存するか、過剰なパラメータを導入し、それらの実用性を制限する。
これらの問題に対処するため、我々は、新しい堅牢なMERフレームワークであるCausal Inference Distiller (CIDer)を提案し、新しいタスクであるRandom Modality Feature Missing (RMFM)を導入し、モダリティの欠如の定義を一般化する。
CIDerはMSSD(Model-Specific Self-Distillation)モジュールとMACI(Model-Agnostic Causal Inference)モジュールという2つの重要なコンポーネントを統合している。
MSSDは、低レベル特徴、アテンションマップ、高レベル表現に適用された重量共有自己蒸留アプローチを通じてRMFMタスク下でのロバスト性を高める。
さらに、ワードレベルの自己整合アテンションモジュール(WSAM)は計算複雑性を低減し、MCT(Multimodal Composite Transformer)は効率的なマルチモーダル融合を促進する。
OOD問題に対処するために、MACIはMultimodal Causal Module(MCM)ときめ細かい反事実テキストを使用してラベルと言語のバイアスを軽減するために、カスタマイズされた因果グラフを使用している。
特に、MACIは最小限の追加パラメータでOOD一般化を独立に拡張することができる。
さらに,新たに分割したMER OODデータセットについても紹介する。
実験の結果、CIDerはRMFMとOODの両方のシナリオでロバストな性能を示し、パラメータは少なく、最先端の手法に比べて訓練が速い。
この作業の実装はhttps://github.com/gw-zhong/CIDer.comで公開されている。
関連論文リスト
- Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models [31.81567038783558]
マルチモーダル・リワードモデル(MM-RM)は,大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。
MM-RMは、不動の突発的相関に依存するため、アウト・オブ・ディストリビューションデータへの一般化に苦慮することが多い。
本稿では,この問題を動的にトレーニングサンプルを再重み付けすることで軽減する,ショートカット対応MM-RM学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-05T02:37:41Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。