論文の概要: Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols
- arxiv url: http://arxiv.org/abs/2006.06110v1
- Date: Wed, 10 Jun 2020 23:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:32:05.722812
- Title: Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols
- Title(参考訳): 統一対話システム評価に向けて:現状評価プロトコルの包括的分析
- Authors: Sarah E. Finch and Jinho D. Choi
- Abstract要約: 現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
- 参考スコア(独自算出の注目度): 17.14709845342071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As conversational AI-based dialogue management has increasingly become a
trending topic, the need for a standardized and reliable evaluation procedure
grows even more pressing. The current state of affairs suggests various
evaluation protocols to assess chat-oriented dialogue management systems,
rendering it difficult to conduct fair comparative studies across different
approaches and gain an insightful understanding of their values. To foster this
research, a more robust evaluation protocol must be set in place. This paper
presents a comprehensive synthesis of both automated and human evaluation
methods on dialogue systems, identifying their shortcomings while accumulating
evidence towards the most effective evaluation dimensions. A total of 20 papers
from the last two years are surveyed to analyze three types of evaluation
protocols: automated, static, and interactive. Finally, the evaluation
dimensions used in these papers are compared against our expert evaluation on
the system-user dialogue data collected from the Alexa Prize 2020.
- Abstract(参考訳): 対話型AIベースの対話管理がトレンドになりつつあるため、標準化された信頼性の高い評価手順の必要性はさらに強くなっている。
現状では、チャット指向の対話管理システムを評価するための様々な評価プロトコルを提案し、異なるアプローチで公正な比較研究を行うことを困難にし、それらの価値について洞察力のある理解を得る。
この研究を促進するためには、より堅牢な評価プロトコルを設定する必要がある。
本稿では,対話システムにおける自動評価手法と人的評価手法の両方を総合的に合成し,その欠点を特定しながら,最も有効な評価次元に対するエビデンスを蓄積する。
過去2年間の合計20の論文を調査し、自動化、静的、インタラクティブの3種類の評価プロトコルを分析した。
最後に、これらの論文で用いられる評価次元を、Alexa Prize 2020から収集されたシステムユーザ対話データに関する専門家評価と比較した。
関連論文リスト
- ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。
また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文 参考訳(メタデータ) (2021-08-03T08:52:33Z) - A Comprehensive Assessment of Dialog Evaluation Metrics [9.34612743192798]
標準言語評価指標は、ダイアログを評価するのに有効ではない。
近年の研究では、人間の判断とよく相関する、対話特有の新しい指標がいくつか提案されている。
本稿では,最近提案された対話評価指標を包括的に評価する。
論文 参考訳(メタデータ) (2021-06-07T15:17:03Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。