Fugu-MT 論文翻訳(概要): AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

論文の概要: AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

arxiv url: http://arxiv.org/abs/2605.21739v2
Date: Wed, 27 May 2026 21:10:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 05:02:24.519497
Title: AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence
Title（参考訳）: AttuneBench: LLM感情情報のための会話ベースのベンチマーク
Authors: Kate M. Lubrano, Faisal Sayed, Ankita Rathod, Akshansh, Craver Corbyn Thomas-Smith, Mark E. Whiting, Karina Nguyen,
Abstract要約: 感情知性(EI)は人間のコミュニケーションの中心であり、評価することがますます重要になっている。 AttuneBenchは200個の真のマルチターンヒューマンモデル会話をベースとしたベンチマークである。感情認識,行動分類,嗜好予測,判断された応答品質のモデルランキングは,ほぼ独立していることがわかった。
参考スコア（独自算出の注目度）: 1.7294100412670375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emotional intelligence (EI), the ability to perceive, understand, and respond appropriately to others' emotional states, is central to human communication, and increasingly important to assess as LLMs assume conversational roles in everyday life. Existing EI benchmarks rely on synthetic prompts, single-turn cases, or third-party annotation. These approaches do not directly measure how models infer and respond to a participant's emotional state over the course of a real conversation. We introduce AttuneBench, a benchmark grounded in 200 genuine multi-turn human-model conversations in which participants conversed with anonymized LLMs and provided turn-by-turn annotations of their emotional state, the model's behavior, and their preferred responses. Across 11 evaluated models, we find that model rankings on emotion recognition, behavioral classification, preference prediction, and judged response quality are largely independent, indicating that emotionally intelligent behavior decomposes into separable capabilities. Preference alignment and response-quality judgments are substantially more model-discriminating than emotion-label accuracy. These results indicate that emotionally intelligent behavior requires predicting what kind of response a specific user wants in context, a distinction that aggregate scoring can obscure and that single-turn or synthetic formats cannot directly capture across turns. AttuneBench provides a framework for assessing each of these capabilities and for diagnosing model-specific strengths and failure modes in emotionally salient conversation.
Abstract（参考訳）: 感情インテリジェンス(EI)は、他人の感情状態を認識し、理解し、適切に反応する能力であり、人間のコミュニケーションの中心であり、LLMが日常生活において会話の役割を担っていることを評価することがますます重要である。既存のEIベンチマークは、合成プロンプト、シングルターンケース、サードパーティのアノテーションに依存している。これらのアプローチは、モデルが実際の会話の過程で、参加者の感情状態をどのように推測し、反応するかを直接測定するものではない。 AttuneBenchは200個の真のマルチターン人間モデル会話をベースとしたベンチマークで、参加者は匿名化されたLLMと会話し、感情状態、モデルの振る舞い、そして彼らの好む反応のターンバイターンアノテーションを提供する。 11種類の評価モデルにおいて、感情認識、行動分類、嗜好予測、判断された応答品質のモデルランキングは、主に独立しており、感情的知的行動が分離可能な機能に分解されることを示す。主観的アライメントと応答品質の判断は、感情ラベルの正確さよりもモデル判別の方がはるかに優れている。これらの結果から,感情的知的行動には,特定のユーザがどのような反応を望んでいるかを予測する必要があることが示唆された。 AttuneBenchは、これらの機能の評価と、感情的に健全な会話におけるモデル固有の強みと障害モードの診断のためのフレームワークを提供する。

関連論文リスト

SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression [13.896538941019722]
より優れた感情予測がより一貫性のある感情応答をもたらすという仮説に基づく自己進化フレームワークであるSELF-EMOを提案する。本稿では、感情理解と感情表現という2つの補助的タスクを導入し、モデルが感情認識と対話応答の両方として機能するロールベースのセルフプレイパラダイムを設計する。 IEMOCAP、MELD、エモリーNLPの実験により、SELF-EMOは最先端の性能を達成し、Qwen3-4Bでは+6.33%、Qwen3-8Bでは+8.54%の精度が向上した。
論文参考訳（メタデータ） (2026-04-20T09:27:40Z)
SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models [86.19617358080016]
Social Omniは、3つのコア次元にわたる対話性の評価を運用するベンチマークである。 Social Omniは2000の知覚サンプルと209の相互作用生成インスタンスの品質管理された診断セットを備えている。本分析により,モデルの知覚的精度と,文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなった。
論文参考訳（メタデータ） (2026-03-17T17:58:44Z)
EmoLLM: Appraisal-Grounded Cognitive-Emotional Co-Reasoning in Large Language Models [15.744777556347708]
EmoLLM は IQ/EQ 共同推論のための評価地上フレームワークである。強化学習によるマルチターンロールプレイ環境において,EmoLLMを訓練する。 EmoLLMは、強いベースラインよりも感情状態の結果と応答品質を改善する。
論文参考訳（メタデータ） (2026-03-17T14:17:50Z)
ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。 ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。 ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文参考訳（メタデータ） (2026-02-13T08:33:37Z)
Decoding Ambiguous Emotions with Test-Time Scaling in Audio-Language Models [18.059483722792077]
テスト時間スケーリング下でのALMを用いた音声におけるあいまいな感情認識のための最初のベンチマークを紹介する。本評価では,8つの最先端ALMと5つのTTS戦略を,3つの顕著な音声感情データセットに対して体系的に比較した。私たちのベンチマークは、より堅牢でコンテキスト対応で感情的にインテリジェントな音声ベースのAIシステムを開発するための基盤を確立します。
論文参考訳（メタデータ） (2026-02-01T07:41:57Z)
Reflecting Twice before Speaking with Empathy: Self-Reflective Alternating Inference for Empathy-Aware End-to-End Spoken Dialogue [53.95386201009769]
音声対話における共感的品質を評価するための記述型自然言語ベース評価モデルであるEmpathyEvalを紹介する。本稿では,共感的自己反射的交替推論機構を通じて共感的対話を強化する,エンドツーエンドの音声言語モデルであるReEmpathyを提案する。
論文参考訳（メタデータ） (2026-01-26T09:04:50Z)
AEQ-Bench: Measuring Empathy of Omni-Modal Large Models [55.722881748046895]
AEQ-Benchは、Omni-modal large model(OLM)の2つのコア共感能力を評価するための新しいベンチマークである。 AEQ-Benchは、文脈特異性と音声のトーンに異なる2つの新しい設定を取り入れている。言語的・パラ言語的な指標の総合的な評価は、OLMが音声出力能力で訓練された場合、一般的にテキストのみの出力を持つモデルよりも優れていたことを示している。
論文参考訳（メタデータ） (2026-01-15T15:39:50Z)
A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。 IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。 HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-01-08T14:07:30Z)
Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models [6.810484095299127]
感情支援は人間とAIの相互作用における中核的な能力であり、心理学的カウンセリング、ロールプレイ、コンパニオンシップなどの応用がある。大規模言語モデル(LLM)の既存の評価は、しばしば短く静的な対話に依存し、感情的サポートの動的で長期的な性質を捉えない。本フレームワークは,328の情緒的文脈と1,152の外乱イベントからなる大規模ベンチマークを構築し,進化する対話シナリオ下での現実的な情緒的変化をシミュレートする。
論文参考訳（メタデータ） (2025-11-12T05:47:28Z)
Evaluating Subjective Cognitive Appraisals of Emotions from Large Language Models [47.890846082224066]
この研究は、24の評価次元を評価する最も包括的なデータセットであるCovidET-Appraisalsを提示することでギャップを埋める。 CovidET-Appraisalsは、認知的評価を自動的に評価し、説明するための大規模言語モデルの能力を評価するのに理想的なテストベッドを提供する。
論文参考訳（メタデータ） (2023-10-22T19:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。