論文の概要: Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier
- arxiv url: http://arxiv.org/abs/2510.23506v1
- Date: Mon, 27 Oct 2025 16:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:22.026147
- Title: Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier
- Title(参考訳): Emotional Rationale Verifier を用いたマルチモーダルLDMの感情コヒーレント推論
- Authors: Hyeongseop Rha, Jeong Hun Yeo, Yeonju Kim, Yong Man Ro,
- Abstract要約: 本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
- 参考スコア(独自算出の注目度): 53.55996102181836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancement of Multimodal Large Language Models (MLLMs) is transforming human-computer interaction (HCI) from surface-level exchanges into more nuanced and emotionally intelligent communication. To realize this shift, emotion understanding becomes essential allowing systems to capture subtle cues underlying user intent. Furthermore, providing faithful explanations for predicted emotions is crucial to ensure interpretability and build user trust. However, current MLLM-based methods often generate emotion explanations that diverge from the target labels and sometimes even contradict their own predicted emotions. This inconsistency poses a critical risk for misunderstanding and erodes reliability in interactive settings. To address this, we propose a novel approach: the Emotional Rationale Verifier (ERV) and an Explanation Reward. Our method guides the model to produce reasoning that is explicitly consistent with the target emotion during multimodal emotion recognition without modifying the model architecture or requiring additional paired video-description annotations. Our method significantly improves faithful explanation-prediction consistency and explanation emotion accuracy on the MAFW and DFEW datasets. Through extensive experiments and human evaluations, we show that our approach not only enhances alignment between explanation and prediction but also empowers MLLMs to deliver emotionally coherent, trustworthy interactions, marking a key step toward truly human-like HCI systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、人間とコンピュータの相互作用(HCI)を、表面レベルでの交換から、よりニュアンスで感情的なコミュニケーションへと変えつつある。
このシフトを実現するために、感情理解はシステムがユーザー意図の微妙な手がかりを捉えるのに不可欠である。
さらに、予測された感情に忠実な説明を提供することは、解釈可能性を確保し、ユーザ信頼を構築するために不可欠である。
しかし、現在のMLLMベースの手法は、しばしばターゲットラベルから分岐し、時には予測された感情と矛盾する感情の説明を生成する。
この矛盾は誤解を招き、対話的な設定で信頼性を損なう重大なリスクをもたらす。
そこで我々は,感情関係検証器 (ERV) と説明回帰器 (Explanation Reward) という,新しい手法を提案する。
提案手法は,モデルアーキテクチャの変更や追加のペアビデオ記述アノテーションを必要とせずに,マルチモーダル感情認識において対象感情と明示的に一致した推論を生成する。
提案手法は,MAFWおよびDFEWデータセット上での忠実な説明・予測一貫性と説明感情の精度を著しく向上する。
広範囲な実験と人的評価を通じて、我々のアプローチは説明と予測の整合性を高めるだけでなく、MLLMに感情的に一貫性のある信頼できるインタラクションを提供し、真の人間的なHCIシステムに向けた重要なステップを示すことを示します。
関連論文リスト
- Emotion Transfer with Enhanced Prototype for Unseen Emotion Recognition in Conversation [64.70874527264543]
会話における未知感情認識(UERC)タスクを初めて紹介する。
本稿では,プロトタイプベースの感情伝達フレームワークProEmoTransを提案する。
ProEmoTransは有望だが、依然として重要な課題に直面している。
論文 参考訳(メタデータ) (2025-08-27T03:16:16Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。
我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - From Rational Answers to Emotional Resonance: The Role of Controllable Emotion Generation in Language Models [16.350658746140788]
大規模言語モデル(LLM)は、一貫性があり、制御可能で、文脈的に適切な方法で感情を表現するのに苦労する。
感情ベクトル(EV)に基づく制御可能な感情生成フレームワークを提案する。
本手法は、追加のトレーニングやアーキテクチャの変更なしに、感情のトーンを微調整し、連続的に調整することができる。
論文 参考訳(メタデータ) (2025-02-06T13:38:57Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。