論文の概要: TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons
- arxiv url: http://arxiv.org/abs/2504.19982v1
- Date: Mon, 28 Apr 2025 16:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.519177
- Title: TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons
- Title(参考訳): TD-EVAL:ターンレベル精度と対話レベル比較を組み合わせたタスク指向対話評価の再検討
- Authors: Emre Can Acikgoz, Carl Guo, Suvodip Dey, Akul Datta, Takyoung Kim, Gokhan Tur, Dilek Hakkani-Tür,
- Abstract要約: TD-EVAL (Turn and Dialogue-level Evaluation) は2段階評価フレームワークであり、詳細なターンレベル解析を総合的な対話レベル比較と統合する。
TD-EVALは,従来の測定値の誤りを効果的に識別することを示す。
また、従来の言語モデルや大規模言語モデルに基づくメトリクスよりも、人間の判断との整合性も向上している。
- 参考スコア(独自算出の注目度): 11.961955016373379
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Task-oriented dialogue (TOD) systems are experiencing a revolution driven by Large Language Models (LLMs), yet the evaluation methodologies for these systems remain insufficient for their growing sophistication. While traditional automatic metrics effectively assessed earlier modular systems, they focus solely on the dialogue level and cannot detect critical intermediate errors that can arise during user-agent interactions. In this paper, we introduce TD-EVAL (Turn and Dialogue-level Evaluation), a two-step evaluation framework that unifies fine-grained turn-level analysis with holistic dialogue-level comparisons. At turn level, we evaluate each response along three TOD-specific dimensions: conversation cohesion, backend knowledge consistency, and policy compliance. Meanwhile, we design TOD Agent Arena that uses pairwise comparisons to provide a measure of dialogue-level quality. Through experiments on MultiWOZ 2.4 and {\tau}-Bench, we demonstrate that TD-EVAL effectively identifies the conversational errors that conventional metrics miss. Furthermore, TD-EVAL exhibits better alignment with human judgments than traditional and LLM-based metrics. These findings demonstrate that TD-EVAL introduces a new paradigm for TOD system evaluation, efficiently assessing both turn and system levels with a plug-and-play framework for future research.
- Abstract(参考訳): タスク指向対話(TOD)システムは,LLM(Large Language Models)によって駆動される革命を経験している。
従来の自動メトリクスは、初期のモジュールシステムを効果的に評価する一方で、対話レベルのみに焦点を当てており、ユーザとエージェントのインタラクション中に発生する重要な中間エラーを検出できない。
本稿では,2段階評価フレームワークであるTD-EVAL(Turn and Dialogue-level Evaluation)を紹介する。
ターンレベルでは、会話の凝集、バックエンドの知識の整合性、ポリシーコンプライアンスという3つのTOD特化次元に沿って、それぞれの応答を評価する。
一方,TODエージェントアリーナは,対話レベルの品質の尺度としてペア比較を用いて設計されている。
我々は,MultiWOZ 2.4 と {\tau}-Bench の実験を通じて,従来の測定値が欠落する会話誤りを効果的に同定できることを実証した。
さらに、TD-EVALは従来のLCMベースの指標よりも人間の判断との整合性が良好である。
これらの結果から,TD-EVALはTODシステム評価のための新しいパラダイムを導入し,将来的な研究のためのプラグアンドプレイフレームワークを用いてターンレベルとシステムレベルを効率的に評価することを示した。
関連論文リスト
- Measuring the Robustness of Reference-Free Dialogue Evaluation Systems [12.332146893333952]
敵攻撃の4つのカテゴリに対して,参照自由対話メトリクスの堅牢性を評価するためのベンチマークを示す。
DialogRPT、UniEval、PromptEvalなどのメトリクスを、地上および地下のデータセットで分析する。
論文 参考訳(メタデータ) (2025-01-12T06:41:52Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。