論文の概要: A Comprehensive Assessment of Dialog Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2106.03706v1
- Date: Mon, 7 Jun 2021 15:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:43:49.472824
- Title: A Comprehensive Assessment of Dialog Evaluation Metrics
- Title(参考訳): ダイアログ評価尺度の総合的評価
- Authors: Yi-Ting Yeh, Maxine Eskenazi, Shikib Mehri
- Abstract要約: 標準言語評価指標は、ダイアログを評価するのに有効ではない。
近年の研究では、人間の判断とよく相関する、対話特有の新しい指標がいくつか提案されている。
本稿では,最近提案された対話評価指標を包括的に評価する。
- 参考スコア(独自算出の注目度): 9.34612743192798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation metrics are a crucial component of dialog systems
research. Standard language evaluation metrics are known to be ineffective for
evaluating dialog. As such, recent research has proposed a number of novel,
dialog-specific metrics that correlate better with human judgements. Due to the
fast pace of research, many of these metrics have been assessed on different
datasets and there has as yet been no time for a systematic comparison between
them. To this end, this paper provides a comprehensive assessment of recently
proposed dialog evaluation metrics on a number of datasets. In this paper, 17
different automatic evaluation metrics are evaluated on 10 different datasets.
Furthermore, the metrics are assessed in different settings, to better qualify
their respective strengths and weaknesses. Metrics are assessed (1) on both the
turn level and the dialog level, (2) for different dialog lengths, (3) for
different dialog qualities (e.g., coherence, engaging), (4) for different types
of response generation models (i.e., generative, retrieval, simple models and
state-of-the-art models), (5) taking into account the similarity of different
metrics and (6) exploring combinations of different metrics. This comprehensive
assessment offers several takeaways pertaining to dialog evaluation metrics in
general. It also suggests how to best assess evaluation metrics and indicates
promising directions for future work.
- Abstract(参考訳): 自動評価指標はダイアログシステム研究の重要な構成要素である。
標準言語評価指標はダイアログの評価に効果がないことが知られている。
このように、近年の研究では、人間の判断と相関する新しい対話特有の指標がいくつか提案されている。
研究の速さのため、これらの指標の多くは異なるデータセットで評価されており、それら間で体系的な比較を行う時間がまだない。
そこで本稿では,最近提案されている多数のデータセットのダイアログ評価指標の包括的評価を行う。
本稿では,17種類の自動評価指標を10種類のデータセットで評価する。
さらに、メトリクスは異なる設定で評価され、それぞれの強みと弱みをよりよく評価します。
1)ターンレベルとダイアログレベルの両方で、(2)異なるダイアログ長、(3)異なるダイアログ品質(例えば、コヒーレンス、エンゲージ)、(4)異なるタイプの応答生成モデル(例えば、生成、検索、シンプルなモデルと最先端モデル)、(5)異なるメトリクスの類似性、(6)異なるメトリクスの組み合わせを検討する。
この包括的評価は、概してダイアログ評価指標に関するいくつかの要約を提供する。
また、評価メトリクスを評価する最善の評価方法を提案し、将来の作業への有望な方向性を示す。
関連論文リスト
- ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。