論文の概要: EmoMM: Benchmarking and Steering MLLM for Multimodal Emotion Recognition under Conflict and Missingness
- arxiv url: http://arxiv.org/abs/2605.01024v1
- Date: Fri, 01 May 2026 18:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.542567
- Title: EmoMM: Benchmarking and Steering MLLM for Multimodal Emotion Recognition under Conflict and Missingness
- Title(参考訳): EmoMM:マルチモーダル感情認識のためのベンチマークとステアリングMLLM
- Authors: Yueru Sun, Yimeng Zhang, Haoyu Gu, Nuo Chen, Dong She, Xianrong Yao, Yang Gao, Zhanpeng Jin,
- Abstract要約: EmoMMは、モダリティの整合性、矛盾、欠落したサブセットを特徴とする包括的なベンチマークである。
本稿では,モダリティ・コンフリクトを検出し,推論時のアテンション・ステアリングを実行する軽量な機構である,コンフリクト対応ヘッドレベル・アテンション・ステアリング(CHASE)を提案する。
- 参考スコア(独自算出の注目度): 17.292747703126796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Emotion Recognition (MER) is critical for interpreting real-world interactions. While Multimodal Large Language Models (MLLM) have shown promise in MER, their internal decision-making mechanisms under modality conflict and missingness remain largely underexplored. In this paper, to systematically investigate these behaviors, we introduce EmoMM, a comprehensive benchmark featuring modality-aligned, conflict, and missing subsets. Through extensive evaluation, we uncover a Video Contribution Collapse (VCC) phenomenon, where MLLM marginalize video evidence due to high token redundancy and modality preferences. To address this, we propose Conflict-aware Head-level Attention Steering (CHASE), a lightweight mechanism that detects modality conflicts and performs inference-time attention steering, effectively mitigating decision bias without retraining the backbone. Experimental results demonstrate that CHASE consistently improves performance across various settings, significantly enhancing the reliability of MLLM in complex affective scenarios.
- Abstract(参考訳): マルチモーダル感情認識(MER)は実世界の相互作用の解釈に重要である。
MLLM(Multimodal Large Language Models)は、MERにおいて有望であるが、その内部決定機構は、モダリティの衝突や欠如によるものである。
本稿では,これらの動作を体系的に研究するために,モダリティの整合性,矛盾,不足部分集合を特徴とする総合的なベンチマークであるEmoMMを紹介する。
広範囲な評価により,ビデオコントリビューション・コラプス(VCC)現象が発見され,MLLMは高いトークン冗長性とモダリティの嗜好により映像証拠を疎外する。
そこで本研究では,モダリティの矛盾を検知し,推論時のアテンションステアリングを行う軽量な機構であるConflict-Aware Head-level Attention Steering (CHASE)を提案する。
実験の結果,CHASEは様々な環境における性能を継続的に改善し,複雑な情緒的シナリオにおけるMLLMの信頼性を著しく向上することがわかった。
関連論文リスト
- Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities [26.613566093134065]
マルチモーダル・センティメント・アナリティクスは、テキスト、音響、視覚的手がかりを統合することで人間の感情を推測する。
既存のアプローチでは、すべてのモダリティが完全であるのに対して、現実のアプリケーションは、ノイズやハードウェアの障害、あるいはモダリティの欠如につながるプライバシー制限にしばしば遭遇する。
我々は、不確実なモダリティ条件下でMSA用に設計されたプログレッシブ表現学習フレームワークPRLFを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:45:02Z) - Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning [21.344503400857107]
現実的な感情対立下でMLLMを調べるための新しいベンチマークであるCA-MERを紹介する。
評価の結果,現在最先端の感情MLLMは感情衝突時の音声信号に過度に適応していることが明らかとなった。
バランスの取れたモダリティ統合を促進するパラメータ効率のよいフレームワークであるMoSEARを提案する。
論文 参考訳(メタデータ) (2025-08-02T04:03:44Z) - Multimodal Video Emotion Recognition with Reliable Reasoning Priors [24.692842008018545]
我々はGeminiを用いて、核融合の段階で前駆体として注入される微粒でモダリティの分離可能な推論トレースを生成する。
本稿では,クラス間分布とクラス内分布を協調的にバランスする損失定式化であるBa balanced Dual-Contrastive Learningを紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:55:23Z) - Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。
我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。
モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文 参考訳(メタデータ) (2025-07-09T11:18:38Z) - Survey of Adversarial Robustness in Multimodal Large Language Models [17.926240920647892]
MLLM(Multimodal Large Language Models)は、人工知能において例外的な性能を示す。
現実世界のアプリケーションへのデプロイは、敵の脆弱性に対する重大な懸念を引き起こす。
本稿では,MLLMの対角的ロバスト性について述べる。
論文 参考訳(メタデータ) (2025-03-18T06:54:59Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベル・ビジョン・知識衝突の問題について考察する。
MLLMにおけるこれらの競合をシミュレートし、評価するために設計された入力を生成するために、人間のループ品質制御を付加した自動フレームワークを導入する。
このフレームワークを用いて、374のオリジナル画像と1,122の高品質な質問応答対からなる診断ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。