論文の概要: Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning
- arxiv url: http://arxiv.org/abs/2602.00971v1
- Date: Sun, 01 Feb 2026 02:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.49608
- Title: Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning
- Title(参考訳): 認知コンパスの展開:マルチモーダル感情推論の理論
- Authors: Meng Luo, Bobo Li, Shanqing Xu, Shize Zhang, Qiuchan Chen, Menglu Han, Wenhao Chen, Yanxiang Huang, Hao Fei, Mong-Li Lee, Wynne Hsu,
- Abstract要約: 真の感情知性は、感情が生まれる認知基盤である心の理論(ToM)の明確なモデリングを必要とする。
ToMをベースとした階層型ベンチマークであるHitEmotionを導入する。
第2に、精神状態を追跡し、モダクティブな証拠を校正し、忠実な感情的推論を実現するToM誘導推論チェーンを提案する。
- 参考スコア(独自算出の注目度): 31.790359663851305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid progress in multimodal large language models (MLLMs), their capability for deep emotional understanding remains limited. We argue that genuine affective intelligence requires explicit modeling of Theory of Mind (ToM), the cognitive substrate from which emotions arise. To this end, we introduce HitEmotion, a ToM-grounded hierarchical benchmark that diagnoses capability breakpoints across increasing levels of cognitive depth. Second, we propose a ToM-guided reasoning chain that tracks mental states and calibrates cross-modal evidence to achieve faithful emotional reasoning. We further introduce TMPO, a reinforcement learning method that uses intermediate mental states as process-level supervision to guide and strengthen model reasoning. Extensive experiments show that HitEmotion exposes deep emotional reasoning deficits in state-of-the-art models, especially on cognitively demanding tasks. In evaluation, the ToM-guided reasoning chain and TMPO improve end-task accuracy and yield more faithful, more coherent rationales. In conclusion, our work provides the research community with a practical toolkit for evaluating and enhancing the cognition-based emotional understanding capabilities of MLLMs. Our dataset and code are available at: https://HitEmotion.github.io/.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の急速な進歩にもかかわらず、深い感情的理解能力は依然として限られている。
真の感情知性には、感情が生み出す認知基盤である心の理論(ToM)の明示的なモデリングが必要であると我々は主張する。
この目的のために,ToMを基盤とした階層型ベンチマークであるHitEmotionを紹介した。
第2に、精神状態を追跡し、モダクティブな証拠を校正し、忠実な感情的推論を実現するToM誘導推論チェーンを提案する。
さらに、中間的精神状態を用いた強化学習手法であるTMPOを導入し、モデル推論の指導と強化を行う。
大規模な実験によると、HitEmotionは最先端のモデル、特に認知に要求されるタスクにおいて、深い感情的推論障害を露呈している。
評価において、ToM誘導推論チェーンとTMPOは、エンドタスクの精度を改善し、より忠実で一貫性のある有理性を得る。
結論として,我々の研究は,MLLMの認知に基づく感情理解能力の評価と向上のための実践的ツールキットを研究コミュニティに提供する。
私たちのデータセットとコードは、https://HitEmotion.github.io/.com/で公開されています。
関連論文リスト
- Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models [13.341709038654198]
我々は,大規模言語モデルで暗黙的に使用される内的認知構造を評価するために,感情に対する認知推論に関する大規模ベンチマークを導入する。
結果と分析結果から,LLMの多種多様な推論パターンが明らかとなった。
論文 参考訳(メタデータ) (2025-08-07T22:19:15Z) - RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents [67.46032287312339]
大規模言語モデル(LLM)は論理的およびアルゴリズム的推論において優れているが、彼らの感情的知性(EQ)は認知能力よりもはるかに遅れている。
シミュレーションユーザによる検証可能な感情報酬を活用する,最初のエンドツーエンド強化学習フレームワークであるRLVERを紹介する。
以上の結果から,RLVERは感情的知的で幅広い言語エージェントへの実践的な経路であることが示唆された。
論文 参考訳(メタデータ) (2025-07-03T18:33:18Z) - PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues [27.231701486961917]
本稿では,大規模言語モデルのマインド能力理論を評価するためのベンチマークであるPersuasiveToMを提案する。
フレームワークには、ToM ReasoningとToM Applicationという2つのコアタスクが含まれています。
PersuasiveToMの目的は、複雑な心理的活動に焦点を当てたLSMのToM推論能力を効果的に評価することである。
論文 参考訳(メタデータ) (2025-02-28T13:04:04Z) - BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind [21.806678376095576]
心の理論(ToM)は、AIをより人間の思考プロセスによく似ている。
ビデオ質問応答(Video QA)データセットは、人間のToMを真に取り入れたイベントの因果推論を研究することに焦点を当てている。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
論文 参考訳(メタデータ) (2024-02-12T04:34:19Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。