論文の概要: How to Evaluate Your Dialogue Models: A Review of Approaches
- arxiv url: http://arxiv.org/abs/2108.01369v1
- Date: Tue, 3 Aug 2021 08:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 14:02:23.758107
- Title: How to Evaluate Your Dialogue Models: A Review of Approaches
- Title(参考訳): 対話モデルの評価方法:アプローチのレビュー
- Authors: Xinmeng Li, Wansen Wu, Long Qin and Quanjun Yin
- Abstract要約: まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。
また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
- 参考スコア(独自算出の注目度): 2.7834038784275403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the quality of a dialogue system is an understudied problem. The
recent evolution of evaluation method motivated this survey, in which an
explicit and comprehensive analysis of the existing methods is sought. We are
first to divide the evaluation methods into three classes, i.e., automatic
evaluation, human-involved evaluation and user simulator based evaluation.
Then, each class is covered with main features and the related evaluation
metrics. The existence of benchmarks, suitable for the evaluation of dialogue
techniques are also discussed in detail. Finally, some open issues are pointed
out to bring the evaluation method into a new frontier.
- Abstract(参考訳): 対話システムの品質評価は未検討の問題である。
評価手法の最近の進化は,既存手法の明示的かつ包括的分析を求める調査の動機となった。
まず,評価手法を,自動評価,人間主導評価,ユーザシミュレータに基づく評価という3つのクラスに分けた。
そして、各クラスは主要な特徴と関連する評価指標で覆われています。
また,対話手法の評価に適したベンチマークの存在についても詳細に述べる。
最後に,評価手法を新たなフロンティアに導くために,いくつかのオープンイシューが指摘されている。
関連論文リスト
- Open-Domain Dialogue Quality Evaluation: Deriving Nugget-level Scores
from Turn-level Scores [17.791039417061565]
本稿では,ターンをナゲット(対話行為に関連する表現)に分解する評価手法を提案する。
ケーススタディにより,評価手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-30T15:14:50Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for
Evaluating Open-Domain Dialogue [15.31433922183745]
オープンドメイン対話の評価のための相関再スケーリング(MME-CRS)に基づくマルチメトリック評価を提案する。
MME-CRSはDSTC10トラック5サブタスクの最終テストデータで第1位である。
論文 参考訳(メタデータ) (2022-06-19T13:43:59Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation [66.60285024216573]
対話評価器はドメイン間の評価も行うことが期待される。
最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
論文 参考訳(メタデータ) (2021-12-14T07:01:20Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。