論文の概要: EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.23802v1
- Date: Fri, 27 Feb 2026 08:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.32874
- Title: EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models
- Title(参考訳): EMO-R3:マルチモーダル大言語モデルにおける感情推論のための反射的強化学習
- Authors: Yiyang Fang, Wenke Huang, Pei Fu, Yihao Yang, Kehua Su, Zhenbo Luo, Jian Luan, Mang Ye,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)の感情的推論能力を高めるためのフレームワークとして,情緒的推論のための反射強化学習(EMO-R3)を提案する。
構造化された感情的思考を導入し、構造化された解釈可能な方法で段階的に感情的推論を行い、そのモデルが視覚的テキストの一貫性と感情的コヒーレンスに基づいてその推論を再評価できる反射的感情的回帰を設計する。
EMO-R3はMLLMの解釈可能性と感情的インテリジェンスの両方を大幅に改善し、複数の視覚的感情理解ベンチマークにおいて優れた性能を達成する。
- 参考スコア(独自算出の注目度): 62.3977734456669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown remarkable progress in visual reasoning and understanding tasks but still struggle to capture the complexity and subjectivity of human emotions. Existing approaches based on supervised fine-tuning often suffer from limited generalization and poor interpretability, while reinforcement learning methods such as Group Relative Policy Optimization fail to align with the intrinsic characteristics of emotional cognition. To address these challenges, we propose Reflective Reinforcement Learning for Emotional Reasoning (EMO-R3), a framework designed to enhance the emotional reasoning ability of MLLMs. Specifically, we introduce Structured Emotional Thinking to guide the model to perform step-by-step emotional reasoning in a structured and interpretable manner, and design a Reflective Emotional Reward that enables the model to re-evaluate its reasoning based on visual-text consistency and emotional coherence. Extensive experiments demonstrate that EMO-R3 significantly improves both the interpretability and emotional intelligence of MLLMs, achieving superior performance across multiple visual emotional understanding benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的推論と理解タスクにおいて顕著な進歩を示したが、人間の感情の複雑さと主観性を捉えるのに苦戦している。
教師付き微調整に基づく既存のアプローチは、限定的な一般化と低い解釈性に悩まされることが多いが、グループ相対政策最適化のような強化学習手法は、感情認知の本質的な特徴と一致しない。
これらの課題に対処するために,MLLMの感情的推論能力を高めるためのフレームワークである,情緒的推論のための反射強化学習(EMO-R3)を提案する。
具体的には、構造的感情思考を導入し、構造化された解釈可能な方法でステップバイステップの感情的推論を実行し、そのモデルが視覚的テキストの一貫性と感情的コヒーレンスに基づいて、その推論を再評価できる反射的感情的リワードを設計する。
EMO-R3はMLLMの解釈可能性と感情的知性の両方を大幅に改善し、複数の視覚的感情理解ベンチマークにおいて優れた性能を達成している。
関連論文リスト
- E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models [6.810484095299127]
感情支援は人間とAIの相互作用における中核的な能力であり、心理学的カウンセリング、ロールプレイ、コンパニオンシップなどの応用がある。
大規模言語モデル(LLM)の既存の評価は、しばしば短く静的な対話に依存し、感情的サポートの動的で長期的な性質を捉えない。
本フレームワークは,328の情緒的文脈と1,152の外乱イベントからなる大規模ベンチマークを構築し,進化する対話シナリオ下での現実的な情緒的変化をシミュレートする。
論文 参考訳(メタデータ) (2025-11-12T05:47:28Z) - Unraveling Emotions with Pre-Trained Models [40.463050040722855]
この研究は、3つのシナリオにおける感情検出における微調整と迅速なエンジニアリングの有効性を比較する。
実験では、感情認識のための微調整済みモデルで70%以上の測定値が得られる。
これらの進歩は、感情分析、人間とコンピュータの相互作用、および様々な領域にわたるユーザー行動の理解を改善する。
論文 参考訳(メタデータ) (2025-10-22T15:13:52Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。
我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - Don't Get Too Excited -- Eliciting Emotions in LLMs [1.8399318639816038]
本稿では,大規模言語モデル(LLM)における影響制御の課題について考察する。
我々は,その感情表現範囲を評価するために,最先端のオープンウェイトLLMを評価した。
モデルの能力を定量化し、幅広い感情のスペクトルを表現し、相互作用の間どのように変動するかを定量化する。
論文 参考訳(メタデータ) (2025-03-04T10:06:41Z) - From Rational Answers to Emotional Resonance: The Role of Controllable Emotion Generation in Language Models [16.350658746140788]
大規模言語モデル(LLM)は、一貫性があり、制御可能で、文脈的に適切な方法で感情を表現するのに苦労する。
感情ベクトル(EV)に基づく制御可能な感情生成フレームワークを提案する。
本手法は、追加のトレーニングやアーキテクチャの変更なしに、感情のトーンを微調整し、連続的に調整することができる。
論文 参考訳(メタデータ) (2025-02-06T13:38:57Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。