論文の概要: ESC-Judge: A Framework for Comparing Emotional Support Conversational Agents
- arxiv url: http://arxiv.org/abs/2505.12531v1
- Date: Sun, 18 May 2025 20:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.289505
- Title: ESC-Judge: A Framework for Comparing Emotional Support Conversational Agents
- Title(参考訳): ESC-Judge:感情支援対話エージェントの比較フレームワーク
- Authors: Navid Madani, Rohini Srihari,
- Abstract要約: ESC-Judgeは,大規模言語モデル(LLM)の最初のエンドツーエンド評価フレームワークである。
ESC-Judge は、クララヒルの確立した探索-洞察-行動カウンセリングモデルにおいて、感情支援 LLM の前後比較を基礎としている。
すべてのコード、プロンプト、合成ロール、書き起こし、判断スクリプトがリリースされ、感情的に支援されるAIの透明な進歩を促進する。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly power mental-health chatbots, yet the field still lacks a scalable, theory-grounded way to decide which model is most effective to deploy. We present ESC-Judge, the first end-to-end evaluation framework that (i) grounds head-to-head comparisons of emotional-support LLMs in Clara Hill's established Exploration-Insight-Action counseling model, providing a structured and interpretable view of performance, and (ii) fully automates the evaluation pipeline at scale. ESC-Judge operates in three stages: first, it synthesizes realistic help-seeker roles by sampling empirically salient attributes such as stressors, personality, and life history; second, it has two candidate support agents conduct separate sessions with the same role, isolating model-specific strategies; and third, it asks a specialized judge LLM to express pairwise preferences across rubric-anchored skills that span the Exploration, Insight, and Action spectrum. In our study, ESC-Judge matched PhD-level annotators on 85 percent of Exploration, 83 percent of Insight, and 86 percent of Action decisions, demonstrating human-level reliability at a fraction of the cost. All code, prompts, synthetic roles, transcripts, and judgment scripts are released to promote transparent progress in emotionally supportive AI.
- Abstract(参考訳): 大規模言語モデル(LLM)は、メンタルヘルスのチャットボットをますます強力にするが、どのモデルをデプロイするのに最も効果的かを決定するためのスケーラブルで理論的な方法がまだ欠けている。
ESC-Judgeは、最初のエンドツーエンド評価フレームワークである。
(i)クララヒルの確立した探索-洞察-行動カウンセリングモデルにおける感情支援LDMの頭と頭の比較
(ii) 大規模な評価パイプラインを完全に自動化する。
ESC-Judgeは、まず、ストレス、パーソナリティ、ライフヒストリーなどの経験豊かな属性をサンプリングし、現実的なヘルプ・シーカーの役割を合成し、次に、2つの候補支援エージェントが同じ役割で別々のセッションを遂行し、モデル固有の戦略を分離し、第3に、探索、洞察、行動スペクトルにまたがるルーリックアンカースキルのペアワイズな選好を専門の裁判官に依頼する。
ESC-Judgeは、Explorationの85%、Insightの83%、Actionの決定の86%でPhDレベルのアノテータと一致し、人間レベルの信頼性をほんの少しのコストで証明した。
すべてのコード、プロンプト、合成ロール、書き起こし、判断スクリプトがリリースされ、感情的に支援されるAIの透明な進歩を促進する。
関連論文リスト
- DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。
既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。
推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文 参考訳(メタデータ) (2025-07-31T13:42:14Z) - Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making [55.2480439325792]
複数の専門分野にまたがってタスクを適応的に委譲するLLM決定フレームワークを提案する。
まず、deferral Policyは、ベースモデルの回答を受け入れるか、あるいは大きなモデルでそれを再生するかを決定する。
第2に、禁忌ポリシーは、カスケードモデル応答が十分に確実であるか、または人間の介入を必要とするかを判定する。
論文 参考訳(メタデータ) (2025-06-13T15:36:22Z) - The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。
本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。
プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文 参考訳(メタデータ) (2025-05-24T04:24:59Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - EssayJudge: A Multi-Granular Benchmark for Assessing Automated Essay Scoring Capabilities of Multimodal Large Language Models [19.271790170055375]
EssayJudgeは、手動のフィーチャエンジニアリングなしで、正確でコンテキストに富んだ評価を提供し、長年のAES制限に対処する。
18種類のMLLMを用いた実験では,特に談話レベルの特性において,人的評価と比較してAES性能の差が明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T15:31:59Z) - Reflection-Bench: Evaluating Epistemic Agency in Large Language Models [10.801745760525838]
疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。
リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。
本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-10-21T17:59:50Z) - ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models [55.301188787490545]
Emotion Support Conversation (ESC)は、人間のストレスを減らし、感情的なガイダンスを提供し、人間の精神的および身体的幸福を高めることを目的としている。
ロールプレイングエージェントを用いてESCモデルと対話するESC評価フレームワーク(ESC-Eval)を提案する。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
論文 参考訳(メタデータ) (2024-06-21T08:03:33Z) - FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models [14.894922829587841]
感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを軽減できる典型的な対話である。
現在の非芸術的方法論は、感情的支援能力を効果的に評価する上で困難に直面している。
本稿では,感情支援能力を評価するために,Large Language Models (LLMs) を用いた新しいモデルFEELを提案する。
論文 参考訳(メタデータ) (2024-03-23T03:32:26Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。