論文の概要: Mind the Goal: Data-Efficient Goal-Oriented Evaluation of Conversational Agents and Chatbots using Teacher Models
- arxiv url: http://arxiv.org/abs/2510.03696v1
- Date: Sat, 04 Oct 2025 06:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.200113
- Title: Mind the Goal: Data-Efficient Goal-Oriented Evaluation of Conversational Agents and Chatbots using Teacher Models
- Title(参考訳): 目標を意識する:教師モデルを用いた会話エージェントとチャットボットの効果的な目標指向評価
- Authors: Deepak Babu Piskala, Sharlene Chen, Udita Patel, Parul Kalra, Rafael Castrillo,
- Abstract要約: マルチエージェントシステムの目標指向評価のための包括的フレームワークを提案する。
提案手法は,ユーザの目標によって会話をセグメンテーションし,関連するすべてのターンを用いて成功を評価する。
企業環境では、ゼロ・ツー・ワンの会話エージェントシステムであるAIDAを評価するために、我々のフレームワークを適用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the quality of multi-turn chatbot interactions remains challenging, as most existing methods assess interactions at the turn level without addressing whether a user's overarching goal was fulfilled. A ``goal'' here refers to an information need or task, such as asking for policy information or applying for leave. We propose a comprehensive framework for goal-oriented evaluation of multi-agent systems (MAS), introducing the \textbf{Goal Success Rate (GSR)} to measure the percentage of fulfilled goals, and a \textbf{Root Cause of Failure (RCOF)} taxonomy to identify reasons for failure in multi-agent chatbots. Our method segments conversations by user goals and evaluates success using all relevant turns. We present a model-based evaluation system combining teacher LLMs, where domain experts define goals, set quality standards serving as a guidance for the LLMs. The LLMs use ``thinking tokens'' to produce interpretable rationales, enabling \textit{explainable}, \textit{data-efficient} evaluations. In an enterprise setting, we apply our framework to evaluate AIDA, a zero-to-one employee conversational agent system built as a ground-up multi-agent conversational agent, and observe GSR improvement from 63\% to 79\% over six months since its inception. Our framework is generic and offers actionable insights through a detailed defect taxonomy based on analysis of failure points in multi-agent chatbots, diagnosing overall success, identifying key failure modes, and informing system improvements.
- Abstract(参考訳): マルチターンチャットボットのインタラクションの質を評価することは依然として困難であり、既存のほとんどのメソッドは、ユーザの包括的な目標が達成されたかどうかに対処することなく、ターンレベルでのインタラクションを評価する。
ここでの「ゴール」とは、政策情報や休暇の申請など、情報の必要性や課題を指す。
本稿では,マルチエージェントシステム(MAS)の目標指向評価のための包括的フレームワークを提案し,達成目標の比率を測るために \textbf{Goal Success Rate (GSR) を導入し,マルチエージェントチャットボットの障害原因を特定するために \textbf{Root Cause of Failure (RCOF) 分類法を提案する。
提案手法は,ユーザの目標によって会話をセグメンテーションし,関連するすべてのターンを用いて成功を評価する。
本稿では,LLMの指導として,ドメインの専門家が目標を定義し,品質基準を設定したモデルベース評価システムを提案する。
LLMは '`thinking tokens'' を使って解釈可能な有理数を生成するため、 \textit{explainable}, \textit{data-efficient} の評価を可能にする。
企業環境では、ゼロ・ツー・ワンの会話エージェントシステムであるAIDAを評価するためにフレームワークを適用し、開始から6ヶ月でGSRの改善を63\%から79\%に改善した。
我々のフレームワークは汎用的で、マルチエージェントチャットボットにおける障害点の分析、全体的な成功の診断、重要な障害モードの特定、システム改善の報知に基づいて、詳細な欠陥分類を通じて実行可能な洞察を提供する。
関連論文リスト
- JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。