論文の概要: Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning
- arxiv url: http://arxiv.org/abs/2508.01181v1
- Date: Sat, 02 Aug 2025 04:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.745306
- Title: Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning
- Title(参考訳): マルチモーダル感情推論のためのベンチマークとブリッジング感情競合
- Authors: Zhiyuan Han, Beier Zhu, Yanlong Xu, Peipei Song, Xun Yang,
- Abstract要約: 現実的な感情対立下でMLLMを調べるための新しいベンチマークであるCA-MERを紹介する。
評価の結果,現在最先端の感情MLLMは感情衝突時の音声信号に過度に適応していることが明らかとなった。
バランスの取れたモダリティ統合を促進するパラメータ効率のよいフレームワークであるMoSEARを提案する。
- 参考スコア(独自算出の注目度): 10.796256794432018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their strong performance in multimodal emotion reasoning, existing Multimodal Large Language Models (MLLMs) often overlook the scenarios involving emotion conflicts, where emotional cues from different modalities are inconsistent. To fill this gap, we first introduce CA-MER, a new benchmark designed to examine MLLMs under realistic emotion conflicts. It consists of three subsets: video-aligned, audio-aligned, and consistent, where only one or all modalities reflect the true emotion. However, evaluations on our CA-MER reveal that current state-of-the-art emotion MLLMs systematically over-rely on audio signal during emotion conflicts, neglecting critical cues from visual modality. To mitigate this bias, we propose MoSEAR, a parameter-efficient framework that promotes balanced modality integration. MoSEAR consists of two modules: (1)MoSE, modality-specific experts with a regularized gating mechanism that reduces modality bias in the fine-tuning heads; and (2)AR, an attention reallocation mechanism that rebalances modality contributions in frozen backbones during inference. Our framework offers two key advantages: it mitigates emotion conflicts and improves performance on consistent samples-without incurring a trade-off between audio and visual modalities. Experiments on multiple benchmarks-including MER2023, EMER, DFEW, and our CA-MER-demonstrate that MoSEAR achieves state-of-the-art performance, particularly under modality conflict conditions.
- Abstract(参考訳): マルチモーダルな感情推論における強いパフォーマンスにもかかわらず、既存のマルチモーダルな大規模言語モデル(MLLM)は、異なるモーダルからの感情的な手がかりが矛盾する感情の衝突に関わるシナリオをしばしば見落としている。
このギャップを埋めるために、我々はまず、現実的な感情対立の下でMLLMを調べるために設計された新しいベンチマークCA-MERを紹介する。
ビデオアライメント、オーディオアライメント、一貫性の3つのサブセットで構成されている。
しかし、我々のCA-MERによる評価では、現在最先端の感情MLLMは、感情の衝突時に音声信号に過度に適応し、視覚的モダリティから重要な手がかりを無視していることが明らかとなった。
このバイアスを軽減するために、バランスの取れたモダリティ統合を促進するパラメータ効率のフレームワークであるMoSEARを提案する。
MoSEARは,(1)微調整頭部におけるモダリティバイアスを低減させる正規化ゲーティング機構を持つモゼ,(2)凍結後骨におけるモダリティ寄与を再均衡させるアテンション再配置機構,の2つのモジュールから構成される。
我々のフレームワークは、感情の衝突を緩和し、オーディオと視覚のモダリティのトレードオフを伴わずに、一貫したサンプルのパフォーマンスを改善する2つの大きな利点を提供している。
MER2023、EMER、DFEWを含む複数のベンチマークと、MoSEARが最先端のパフォーマンス、特にモダリティ競合条件下で達成したCA-MERデーモンストレートの実験を行った。
関連論文リスト
- Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。
我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。
モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文 参考訳(メタデータ) (2025-07-09T11:18:38Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - RAMer: Reconstruction-based Adversarial Model for Multi-party Multi-modal Multi-label Emotion Recognition [10.994464649878926]
マルチモーダル表現を洗練するためのRAMer (Reconstruction-based Adrial Model for Emotion Recognition)を提案する。
本稿では,RAMer が Dyadic および Multi-party MMER シナリオにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-02-09T07:46:35Z) - Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition [37.12407597998884]
マルチモーダル対話における複雑な感情的手がかりを追跡するために,GraphSmileという新しい手法が提案されている。
GraphSmileは2つの重要なコンポーネント、すなわちGSFとSDPモジュールから構成される。
複数のベンチマークにおける実証的な結果は、GraphSmileが複雑な感情的および感情的パターンを処理可能であることを示している。
論文 参考訳(メタデータ) (2024-07-31T11:47:36Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - UniMEEC: Towards Unified Multimodal Emotion Recognition and Emotion Cause [18.99103120856208]
感情と感情の因果関係を明らかにするために,統一マルチモーダル感情認識・感情因果分析フレームワーク(UniMEEC)を提案する。
UniMEECは、MERCおよびMECPEタスクをマスク予測問題として再構成し、因果プロンプトテンプレートでそれらを統一する。
4つの公開ベンチマークデータセットの実験結果は、MERCおよびMECPEタスクのモデル性能を検証する。
論文 参考訳(メタデータ) (2024-03-30T15:59:17Z) - MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition [7.81011775615268]
シングルコーパスとクロスコーパスSERの両方を同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetを紹介する。
様々な音声属性間の情報重なりを考慮し、異なる音声属性の相関に基づく新しい学習パラダイムを提案する。
シングルコーパスSERシナリオとクロスコーパスSERシナリオの両方の実験は、MSAC-SERNetが最先端SERアプローチと比較して優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2023-08-08T03:43:24Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - TSAM: A Two-Stream Attention Model for Causal Emotion Entailment [50.07800752967995]
CEE(Causal Emotion Entailment)は、会話の発話において感情の背後にある潜在的な原因を発見することを目的としている。
我々は,グローバルビューにおける発話間の相関を捉えるために,複数の発話を同期的に分類する。
対話履歴における話者の感情的影響を効果的にモデル化する2ストリーム注意モデル(TSAM)を提案する。
論文 参考訳(メタデータ) (2022-03-02T02:11:41Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。