論文の概要: HEART: A Unified Benchmark for Assessing Humans and LLMs in Emotional Support Dialogue
- arxiv url: http://arxiv.org/abs/2601.19922v1
- Date: Fri, 09 Jan 2026 06:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.540588
- Title: HEART: A Unified Benchmark for Assessing Humans and LLMs in Emotional Support Dialogue
- Title(参考訳): HEART:感情支援対話における人間とLLMの評価のための統一ベンチマーク
- Authors: Laya Iyer, Kriti Aggarwal, Sanmi Koyejo, Gail Heyman, Desmond C. Ong, Subhabrata Mukherjee,
- Abstract要約: HEARTは、人間とLDMを同一のマルチターン感情支援会話で直接比較する最初のフレームワークである。
いくつかのフロンティアモデルは、共感と一貫性の知覚において、平均的な人間の反応に近づいたり、超えたりします。
HEARTは、サポート的対話を、一般的な推論や言語流布とは分離可能な、独立した能力軸として再編成する。
- 参考スコア(独自算出の注目度): 29.077783997591037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supportive conversation depends on skills that go beyond language fluency, including reading emotions, adjusting tone, and navigating moments of resistance, frustration, or distress. Despite rapid progress in language models, we still lack a clear way to understand how their abilities in these interpersonal domains compare to those of humans. We introduce HEART, the first-ever framework that directly compares humans and LLMs on the same multi-turn emotional-support conversations. For each dialogue history, we pair human and model responses and evaluate them through blinded human raters and an ensemble of LLM-as-judge evaluators. All assessments follow a rubric grounded in interpersonal communication science across five dimensions: Human Alignment, Empathic Responsiveness, Attunement, Resonance, and Task-Following. HEART uncovers striking behavioral patterns. Several frontier models approach or surpass the average human responses in perceived empathy and consistency. At the same time, humans maintain advantages in adaptive reframing, tension-naming, and nuanced tone shifts, particularly in adversarial turns. Human and LLM-as-judge preferences align on about 80 percent of pairwise comparisons, matching inter-human agreement, and their written rationales emphasize similar HEART dimensions. This pattern suggests an emerging convergence in the criteria used to assess supportive quality. By placing humans and models on equal footing, HEART reframes supportive dialogue as a distinct capability axis, separable from general reasoning or linguistic fluency. It provides a unified empirical foundation for understanding where model-generated support aligns with human social judgment, where it diverges, and how affective conversational competence scales with model size.
- Abstract(参考訳): 支持的な会話は、感情を読むこと、トーンを調整すること、抵抗、フラストレーション、苦悩の瞬間をナビゲートすることなど、言語流布を超えたスキルに依存する。
言語モデルの急速な進歩にもかかわらず、これらの対人関係領域におけるそれらの能力が人間の能力とどのように比較されるかを理解するための明確な方法がまだ存在しない。
HEARTは、人間とLDMを同一のマルチターン感情支援会話で直接比較する最初のフレームワークである。
各対話履歴について,人間の反応とモデル応答を照合し,視覚障害者による評価とLCM-as-judge評価器のアンサンブルを用いて評価する。
すべての評価は、人間のアライメント、共感的応答性、注意、共鳴、タスクフォローという5つの次元にまたがる対人コミュニケーション科学に根ざしたルーリックに従う。
HEARTは印象的な行動パターンを明らかにする。
いくつかのフロンティアモデルは、共感と一貫性の知覚において、平均的な人間の反応に近づいたり、超えたりします。
同時に、人間は適応的リフレーミング、テンションネーミング、ニュアンスドトーンシフト、特に逆転の利点を保っている。
人間とLLM-as-judgeの嗜好は、対比較の約80%に一致し、人間間合意に一致する。
このパターンは、サポート品質を評価するために使われる基準に、新たな収束が示唆されている。
人間とモデルを平等な足場に置くことで、HEARTは支持的対話を、一般的な推論や言語流布から分離可能な、独立した能力軸として再編成する。
モデル生成支援が人間の社会的判断とどのように一致しているか、それが分岐し、どのように感情的な会話能力がモデルサイズとスケールするかを理解するための、統一的な経験的基盤を提供する。
関連論文リスト
- The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era [95.35748535806744]
我々はICASSP 2026で最初のヒューマンライクな音声対話システムチャレンジ(HumDial)を開催する。
本稿では,データセット,トラック構成,最終結果について概説する。
論文 参考訳(メタデータ) (2026-01-09T06:32:30Z) - Computational Analysis of Conversation Dynamics through Participant Responsivity [18.116125865284666]
応答性を定量化する手法を開発し評価する。
両手法を人間に注釈を付けた会話の真理集合に対して評価する。
次に,会話談話の様々な側面に対処するために,会話レベルの派生メトリクスを開発する。
論文 参考訳(メタデータ) (2025-09-19T23:13:13Z) - Are You Listening to Me? Fine-Tuning Chatbots for Empathetic Dialogue [0.5849783371898033]
感情的にリッチなインタラクションを生成するタスクにおいて,Large Language Models (LLM) がどのように反応するかを検討する。
本研究では,感情分析(VADER)と専門家評価の両方を用いて,対話の感情的進行を分析した。
論文 参考訳(メタデータ) (2025-07-03T11:32:41Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Multi-dimensional Evaluation of Empathetic Dialog Responses [4.580983642743026]
話者の視点から表現された意図と聴取者の視点から認識された共感の両方を測定するための多次元共感評価フレームワークを提案する。
両次元が相互接続されているのに対して,共感は対話満足度と高い相関関係にあることがわかった。
論文 参考訳(メタデータ) (2024-02-18T00:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。