論文の概要: Multi-Faceted Evaluation of Tool-Augmented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2510.19186v1
- Date: Wed, 22 Oct 2025 02:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.938042
- Title: Multi-Faceted Evaluation of Tool-Augmented Dialogue Systems
- Title(参考訳): ツール強化対話システムの多面的評価
- Authors: Zhaoyi Joey Hou, Tanya Shourya, Yingfan Wang, Shamik Roy, Vinayshekhar Bannihatti Kumar, Rashmi Gangadharaiah,
- Abstract要約: TRACEは,多種多様なエラー事例を網羅した,体系的に合成されたツール強化会話のベンチマークである。
また,ツール拡張対話において,多様なエラーパターンを自動検出し,ルーリックの評価を行うSCOPEについても紹介する。
- 参考スコア(独自算出の注目度): 9.632199192261174
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating conversational AI systems that use external tools is challenging, as errors can arise from complex interactions among user, agent, and tools. While existing evaluation methods assess either user satisfaction or agents' tool-calling capabilities, they fail to capture critical errors in multi-turn tool-augmented dialogues-such as when agents misinterpret tool results yet appear satisfactory to users. We introduce TRACE, a benchmark of systematically synthesized tool-augmented conversations covering diverse error cases, and SCOPE, an evaluation framework that automatically discovers diverse error patterns and evaluation rubrics in tool-augmented dialogues. Experiments show SCOPE significantly outperforms the baseline, particularly on challenging cases where user satisfaction signals are misleading.
- Abstract(参考訳): ユーザ、エージェント、ツール間の複雑なインタラクションからエラーが発生する可能性があるため、外部ツールを使用する会話型AIシステムの評価は難しい。
既存の評価手法では、ユーザの満足度やエージェントのツールコール能力を評価するが、エージェントがツール結果の誤解釈をまだユーザにとって満足できないようなマルチターンツール拡張ダイアログにおいて、重要なエラーを捕捉することができない。
本稿では,多種多様なエラー事例を網羅したツール拡張会話のベンチマークであるTRACEと,多種多様なエラーパターンを自動検出し,ツール拡張対話におけるルーリックの評価を行うSCOPEを紹介する。
SCOPEは、特にユーザ満足度信号が誤解を招く困難なケースにおいて、ベースラインを著しく上回ります。
関連論文リスト
- ToolCritic: Detecting and Correcting Tool-Use Errors in Dialogue Systems [4.930296454541593]
ToolCriticは、マルチターン、ツール拡張された対話におけるツールの使用を評価し、改善するフレームワークである。
試行によると、ToolCriticはツール呼び出しの精度を最大13%改善している。
論文 参考訳(メタデータ) (2025-10-19T23:42:39Z) - ACEBench: Who Wins the Match Point in Tool Usage? [86.79310356779108]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation [17.41434948048325]
我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。
我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。
我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
論文 参考訳(メタデータ) (2023-05-23T09:24:53Z) - Actionable Conversational Quality Indicators for Improving Task-Oriented
Dialog Systems [2.6094079735487994]
本稿では、ACQI(Actionable Conversational Quality Indicator)の使用について紹介し、解説する。
ACQIは、改善可能なダイアログの一部を認識し、改善する方法を推奨するために使用される。
本稿では、商用顧客サービスアプリケーションで使用されるLivePersonの内部ダイアログシステムにおけるACQIの使用の有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T22:41:42Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。