論文の概要: SURE: Synergistic Uncertainty-aware Reasoning for Multimodal Emotion Recognition in Conversations
- arxiv url: http://arxiv.org/abs/2604.01916v1
- Date: Thu, 02 Apr 2026 11:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.710377
- Title: SURE: Synergistic Uncertainty-aware Reasoning for Multimodal Emotion Recognition in Conversations
- Title(参考訳): SURE:会話におけるマルチモーダル感情認識のための相乗的不確実性認識推論
- Authors: Yiqiang Cai, Chengyan Wu, Bolei Ma, Bo Chen, Yun Xue, Julia Hirschberg, Ziwei Gong,
- Abstract要約: 会話におけるマルチモーダル感情認識(MERC)は、ノイズに頑健であり、文脈的推論をモデル化しながら、マルチモーダル信号を統合する必要がある。
我々は、堅牢性と文脈モデリングを改善するMERCのためのSURE(Synergistic Uncertainty-aware Reasoning)を提案する。
- 参考スコア(独自算出の注目度): 15.80542007124167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition in conversations (MERC) requires integrating multimodal signals while being robust to noise and modeling contextual reasoning. Existing approaches often emphasize fusion but overlook uncertainty in noisy features and fine-grained reasoning. We propose SURE (Synergistic Uncertainty-aware REasoning) for MERC, a framework that improves robustness and contextual modeling. SURE consists of three components: an Uncertainty-Aware Mixture-of-Experts module to handle modality-specific noise, an Iterative Reasoning module for multi-turn reasoning over context, and a Transformer Gate module to capture intra- and inter-modal interactions. Experiments on benchmark MERC datasets show that SURE consistently outperforms state-of-the-art methods, demonstrating its effectiveness in robust multimodal reasoning. These results highlight the importance of uncertainty modeling and iterative reasoning in advancing emotion recognition in conversational settings.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)は、ノイズに頑健であり、文脈的推論をモデル化しながら、マルチモーダル信号を統合する必要がある。
既存のアプローチはしばしば融合を強調するが、ノイズのある特徴やきめ細かい推論の不確実性を見落としている。
我々は、堅牢性と文脈モデリングを改善するMERCのためのSURE(Synergistic Uncertainty-aware Reasoning)を提案する。
SUREは、3つのコンポーネントで構成されている: モーダリティ固有のノイズを処理する不確実性認識混合モジュール、コンテキスト上のマルチターン推論を行うイテレーティブ推論モジュール、モーダル内およびモーダル間相互作用をキャプチャするトランスフォーマーゲートモジュール。
ベンチマークMERCデータセットの実験では、SUREは最先端の手法よりも一貫して優れており、堅牢なマルチモーダル推論におけるその有効性を示している。
これらの結果は,会話環境における感情認識の促進における不確実性モデリングと反復的推論の重要性を強調した。
関連論文リスト
- Uncertainty-Aware Multimodal Emotion Recognition through Dirichlet Parameterization [0.06596280437011041]
本稿では,エッジデバイスに展開するための軽量かつプライバシ保護型マルチモーダル感情認識(MER)フレームワークを提案する。
私たちの実装では、音声、テキスト、顔画像の3つのモードを使用します。
Dempster-Shafer理論とDirichletエビデンスに基づくモデルおよびタスク非依存核融合機構を導入する。
論文 参考訳(メタデータ) (2026-02-09T19:12:30Z) - Integrating Fine-Grained Audio-Visual Evidence for Robust Multimodal Emotion Reasoning [9.470507126417292]
本稿では,ロバストなマルチモーダル推論のためのフレームワークであるSABER-LLMを紹介する。
まず,600Kビデオクリップからなる大規模感情推論データセットであるSABERを構築した。
第2に,エビデンス抽出と推論を「知覚的推論」に分離する構造的エビデンス分解パラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-26T10:03:26Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - Latent Distribution Decoupling: A Probabilistic Framework for Uncertainty-Aware Multimodal Emotion Recognition [7.25361375272096]
マルチモーダル・マルチラベル感情認識は,マルチモーダルデータにおける複数の感情の存在を同時に認識することを目的としている。
既存の研究では、マルチモーダルデータに固有のノイズであるテクスブファレラティック不確実性の影響を見落としている。
本稿では,不確かさ認識フレームワークを用いた潜在感情分布分解法を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:53:23Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。