論文の概要: ESC-Judge: A Framework for Comparing Emotional Support Conversational Agents
- arxiv url: http://arxiv.org/abs/2505.12531v1
- Date: Sun, 18 May 2025 20:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.289505
- Title: ESC-Judge: A Framework for Comparing Emotional Support Conversational Agents
- Title(参考訳): ESC-Judge:感情支援対話エージェントの比較フレームワーク
- Authors: Navid Madani, Rohini Srihari,
- Abstract要約: ESC-Judgeは,大規模言語モデル(LLM)の最初のエンドツーエンド評価フレームワークである。
ESC-Judge は、クララヒルの確立した探索-洞察-行動カウンセリングモデルにおいて、感情支援 LLM の前後比較を基礎としている。
すべてのコード、プロンプト、合成ロール、書き起こし、判断スクリプトがリリースされ、感情的に支援されるAIの透明な進歩を促進する。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly power mental-health chatbots, yet the field still lacks a scalable, theory-grounded way to decide which model is most effective to deploy. We present ESC-Judge, the first end-to-end evaluation framework that (i) grounds head-to-head comparisons of emotional-support LLMs in Clara Hill's established Exploration-Insight-Action counseling model, providing a structured and interpretable view of performance, and (ii) fully automates the evaluation pipeline at scale. ESC-Judge operates in three stages: first, it synthesizes realistic help-seeker roles by sampling empirically salient attributes such as stressors, personality, and life history; second, it has two candidate support agents conduct separate sessions with the same role, isolating model-specific strategies; and third, it asks a specialized judge LLM to express pairwise preferences across rubric-anchored skills that span the Exploration, Insight, and Action spectrum. In our study, ESC-Judge matched PhD-level annotators on 85 percent of Exploration, 83 percent of Insight, and 86 percent of Action decisions, demonstrating human-level reliability at a fraction of the cost. All code, prompts, synthetic roles, transcripts, and judgment scripts are released to promote transparent progress in emotionally supportive AI.
- Abstract(参考訳): 大規模言語モデル(LLM)は、メンタルヘルスのチャットボットをますます強力にするが、どのモデルをデプロイするのに最も効果的かを決定するためのスケーラブルで理論的な方法がまだ欠けている。
ESC-Judgeは、最初のエンドツーエンド評価フレームワークである。
(i)クララヒルの確立した探索-洞察-行動カウンセリングモデルにおける感情支援LDMの頭と頭の比較
(ii) 大規模な評価パイプラインを完全に自動化する。
ESC-Judgeは、まず、ストレス、パーソナリティ、ライフヒストリーなどの経験豊かな属性をサンプリングし、現実的なヘルプ・シーカーの役割を合成し、次に、2つの候補支援エージェントが同じ役割で別々のセッションを遂行し、モデル固有の戦略を分離し、第3に、探索、洞察、行動スペクトルにまたがるルーリックアンカースキルのペアワイズな選好を専門の裁判官に依頼する。
ESC-Judgeは、Explorationの85%、Insightの83%、Actionの決定の86%でPhDレベルのアノテータと一致し、人間レベルの信頼性をほんの少しのコストで証明した。
すべてのコード、プロンプト、合成ロール、書き起こし、判断スクリプトがリリースされ、感情的に支援されるAIの透明な進歩を促進する。
関連論文リスト
- Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models [55.301188787490545]
Emotion Support Conversation (ESC)は、人間のストレスを減らし、感情的なガイダンスを提供し、人間の精神的および身体的幸福を高めることを目的としている。
ロールプレイングエージェントを用いてESCモデルと対話するESC評価フレームワーク(ESC-Eval)を提案する。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
論文 参考訳(メタデータ) (2024-06-21T08:03:33Z) - FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models [14.894922829587841]
感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを軽減できる典型的な対話である。
現在の非芸術的方法論は、感情的支援能力を効果的に評価する上で困難に直面している。
本稿では,感情支援能力を評価するために,Large Language Models (LLMs) を用いた新しいモデルFEELを提案する。
論文 参考訳(メタデータ) (2024-03-23T03:32:26Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。