論文の概要: CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning
- arxiv url: http://arxiv.org/abs/2605.17176v1
- Date: Sat, 16 May 2026 22:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.722559
- Title: CAREBench: Evaluating LLMs' Emotion Understanding by Assessing Cognitive Appraisal Reasoning
- Title(参考訳): CAREBench:認知的評価推論によるLLMの感情理解の評価
- Authors: Zhaoyue Sun, Hainiu Xu, Andero Uusberg, James J. Gross, Petr Slovak, Yulan He,
- Abstract要約: 本稿では,CAREBenchについて紹介する。CAREBenchは,実世界の物語に関する一対一の視点と三対三の視点から,完全な推論連鎖アノテーションを用いた最初のベンチマークである。
より強いモデルは、特定のタスクにおいて人間の観察者と一致するか、あるいは上回っているが、評価的推論と肯定的な感情認識では不足している。
- 参考スコア(独自算出の注目度): 15.748287669426695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion understanding is a core capability for LLMs to interact effectively with humans, yet existing evaluation paradigms rely on discrete emotion label prediction and fail to capture the cognitive processes underlying emotion generation. Grounded in appraisal theory, we introduce CAREBench, the first benchmark with complete inferential chain annotations from both first- and third-person perspectives on real-world narratives, spanning appraisal reasoning, appraisal ratings, and multi-label emotion annotation. We propose a process-level evaluation framework and conduct systematic experiments across six LLMs organized around four research questions. We find that stronger models match or surpass human observers on certain tasks, yet fall short on appraisal reasoning and positive emotion recognition; performance across chain steps and sensitivity to appraisal interventions exhibit dissociations across models; and current models have not internalized the mechanisms needed to capture human subjective heterogeneity. These findings suggest that downstream emotion prediction metrics may overestimate LLMs' true emotion understanding, and CAREBench provides a foundation for more diagnostically informative evaluation of LLMs' affective cognitive capabilities.
- Abstract(参考訳): 感情理解は、LLMが人間と効果的に相互作用するコア機能であるが、既存の評価パラダイムは、個別の感情ラベル予測に依存しており、感情生成の基礎となる認知過程を捉えていない。
評価理論を基礎としたCAREBenchは,実世界の物語に対する一対一の視点と三対三の視点による完全な推論連鎖アノテーションを備えた最初のベンチマークであり,評価的推論,評価的評価,多ラベル感情のアノテーションにまたがるものである。
本研究では, プロセスレベル評価フレームワークを提案し, 4 つの研究課題を中心に整理された 6 つの LLM の体系的実験を行った。
より強いモデルは、特定のタスクにおいて人間の観察者と一致または上回るが、評価的推論と肯定的な感情認識に乏しく、チェーンステップを越えたパフォーマンスと評価的介入に対する感受性は、モデル間での解離を示し、現在のモデルは、人間の主観的不均一性を捉えるために必要なメカニズムを内包していない。
これらの結果は、下流の感情予測指標がLLMの真の感情理解を過大評価している可能性を示唆し、CAREBenchはLLMの感情認知能力のより診断学的に評価するための基盤を提供する。
関連論文リスト
- E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach [29.502292089901825]
この矛盾は, 既存の評価手法の制約に起因していると論じる。
これらの制約を克服する感情文判断タスクを提案する。
人間の努力を最小限に抑えて感情中心の文を効率的に構築する自動パイプラインを考案する。
論文 参考訳(メタデータ) (2025-09-26T06:30:39Z) - Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models [13.341709038654198]
我々は,大規模言語モデルで暗黙的に使用される内的認知構造を評価するために,感情に対する認知推論に関する大規模ベンチマークを導入する。
結果と分析結果から,LLMの多種多様な推論パターンが明らかとなった。
論文 参考訳(メタデータ) (2025-08-07T22:19:15Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Rational Sensibility: LLM Enhanced Empathetic Response Generation Guided by Self-presentation Theory [8.439724621886779]
LLM(Large Language Models)の開発は、人間中心の人工知能(AGI)に希望の光を与えている。
共感は人間にとって重要な感情的属性として機能し、人間中心のAGIにおいて不定の役割を果たす。
本稿では,社会学における自己表現理論にインスパイアされた革新的なエンコーダモジュールを設計する。
論文 参考訳(メタデータ) (2023-12-14T07:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。