論文の概要: ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System
- arxiv url: http://arxiv.org/abs/2601.11854v1
- Date: Sat, 17 Jan 2026 00:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.34275
- Title: ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System
- Title(参考訳): ATOD:エージェント型タスク指向対話システムの評価フレームワークとベンチマーク
- Authors: Yifei Zhang, Hooshang Nayyeri, Rinat Khaziev, Emine Yilmaz, Gokhan Tur, Dilek Hakkani-Tür, Hari Thadakamalla,
- Abstract要約: 近年のタスク指向対話(TOD)システムの進歩により,対話エージェントは,対話エージェントによる対話目標の協調,長期的コンテキストの維持,非同期実行による積極的な行動が可能になった。
これらの機能は従来のTODシステムを超えて拡張されるが、既存のベンチマークではそのようなエージェント動作を評価するための体系的なサポートが欠如している。
我々は、長期的推論を必要とするリッチな注釈付き会話を生成するベンチマークおよび合成対話生成パイプラインであるATODを紹介する。
我々は,これらの次元を詳細なメトリクスに変換し,再現可能なオフラインおよびオンライン評価をサポートする総合評価フレームワークであるATOD-Evalを提案する。
- 参考スコア(独自算出の注目度): 27.78128349257987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in task-oriented dialogue (TOD) systems, driven by large language models (LLMs) with extensive API and tool integration, have enabled conversational agents to coordinate interleaved goals, maintain long-horizon context, and act proactively through asynchronous execution. These capabilities extend beyond traditional TOD systems, yet existing benchmarks lack systematic support for evaluating such agentic behaviors. To address this gap, we introduce ATOD, a benchmark and synthetic dialogue generation pipeline that produces richly annotated conversations requiring long-term reasoning. ATOD captures key characteristics of advanced TOD, including multi-goal coordination, dependency management, memory, adaptability, and proactivity. Building on ATOD, we propose ATOD-Eval, a holistic evaluation framework that translates these dimensions into fine-grained metrics and supports reproducible offline and online evaluation. We further present a strong agentic memory-based evaluator for benchmarking on ATOD. Experiments show that ATOD-Eval enables comprehensive assessment across task completion, agentic capability, and response quality, and that the proposed evaluator offers a better accuracy-efficiency tradeoff compared to existing memory- and LLM-based approaches under this evaluation setting.
- Abstract(参考訳): タスク指向対話システム(TOD)の最近の進歩は,大規模言語モデル(LLM)とAPIとツールの統合により,対話エージェントによる対話エージェントによる対話の協調,長期的コンテキストの維持,非同期実行によるアクティブな動作を実現している。
これらの機能は従来のTODシステムを超えて拡張されるが、既存のベンチマークではそのようなエージェント動作を評価するための体系的なサポートが欠如している。
このギャップに対処するために、長期的推論を必要とする豊富な注釈付き会話を生成するベンチマークおよび合成対話生成パイプラインであるATODを導入する。
ATODは、マルチゴール調整、依存性管理、メモリ、適応性、アクティブなど、高度なTODの重要な特徴を捉えている。
ATODに基づいて構築されたATOD-Evalは,これらの次元を詳細なメトリクスに変換し,再現可能なオフラインおよびオンライン評価をサポートする総合評価フレームワークである。
さらに、ATOD上でのベンチマークのための強力なエージェントメモリベースの評価器を提案する。
実験により,ATOD-Evalはタスク完了,エージェント能力,応答品質を包括的に評価することが可能であり,提案した評価器は既存のメモリベースやLCMベースの手法と比較して,精度と効率のトレードオフが良好であることがわかった。
関連論文リスト
- Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation [47.85891728056131]
PRDBenchは、20のドメインにわたる50の現実のPythonプロジェクトからなる、新しいベンチマークである。それぞれに構造化された製品要求文書(PRD)要件、包括的な評価基準、リファレンス実装がある。
我々はエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)パラダイムを用いてエージェントの出力を評価する。
論文 参考訳(メタデータ) (2025-10-28T12:26:45Z) - A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports [24.09178055088843]
Deep Research Agents (DRA)は、タスク分解、クロスソース検索、多段階推論、構造化出力の能力を示す。
本稿では,DRAとレポートスタイルの応答に適した厳密なベンチマークと多次元評価フレームワークを提案する。
このフレームワークは、DRAが生成した長期レポートの総合的な評価を可能にし、セマンティックな品質、トピックの焦点、検索の信頼性のための総合的なスコアリング指標を統合する。
論文 参考訳(メタデータ) (2025-10-02T16:40:02Z) - TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons [11.961955016373379]
TD-EVAL (Turn and Dialogue-level Evaluation) は2段階評価フレームワークであり、詳細なターンレベル解析を総合的な対話レベル比較と統合する。
TD-EVALは,従来の測定値の誤りを効果的に識別することを示す。
また、従来の言語モデルや大規模言語モデルに基づくメトリクスよりも、人間の判断との整合性も向上している。
論文 参考訳(メタデータ) (2025-04-28T16:57:17Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - InstructTODS: Large Language Models for End-to-End Task-Oriented
Dialogue Systems [60.53276524369498]
大規模言語モデル(LLM)は自然言語処理(NLP)における多様なタスクに使用されている。
InstructTODSは、ゼロショットのタスク指向対話システムのための新しいフレームワークである。
InstructTODSは、ユーザの意図を動的クエリにシームレスに翻訳するプロキシの信念状態を生成する。
論文 参考訳(メタデータ) (2023-10-13T06:36:26Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents [59.091663077007304]
JARVISは,モジュール型,一般化可能,解釈可能な対話型エンボディドエージェントのための,ニューロシンボリック・コモンセンス推論フレームワークである。
我々のフレームワークは、ダイアログヒストリー(EDH)、TfD、Two-Agent Task Completion(TATC)を含む3つのダイアログベースの実施タスクに対して、最先端(SOTA)結果を達成する。
私たちのモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
論文 参考訳(メタデータ) (2022-08-28T18:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。