論文の概要: FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation
- arxiv url: http://arxiv.org/abs/2210.13832v1
- Date: Tue, 25 Oct 2022 08:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:39:52.917349
- Title: FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation
- Title(参考訳): FineD-Eval:きめ細かい対話レベル評価
- Authors: Chen Zhang, Luis Fernando D'Haro, Qiquan Zhang, Thomas Friedrichs,
Haizhou Li
- Abstract要約: 本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
- 参考スコア(独自算出の注目度): 58.46761798403072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent model-based reference-free metrics for open-domain dialogue evaluation
exhibit promising correlations with human judgment. However, they either
perform turn-level evaluation or look at a single dialogue quality dimension.
One would expect a good evaluation metric to assess multiple quality dimensions
at the dialogue level. To this end, we are motivated to propose a
multi-dimensional dialogue-level metric, which consists of three sub-metrics
with each targeting a specific dimension. The sub-metrics are trained with
novel self-supervised objectives and exhibit strong correlations with human
judgment for their respective dimensions. Moreover, we explore two approaches
to combine the sub-metrics: metric ensemble and multitask learning. Both
approaches yield a holistic metric that significantly outperforms individual
sub-metrics. Compared to the existing state-of-the-art metric, the combined
metrics achieve around 16% relative improvement on average across three
high-quality dialogue-level evaluation benchmarks.
- Abstract(参考訳): オープンドメイン対話評価のための最近のモデルベース基準フリーメトリクスは、人的判断と有望な相関を示す。
しかし、ターンレベルの評価を行うか、単一の対話品質の次元を見るかのどちらかである。
対話レベルで複数の品質次元を評価するための優れた評価基準が期待できる。
この目的のために、我々は、特定の次元を対象とする3つのサブメトリックからなる多次元対話レベルメトリックを提案する動機付けがある。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元に対する人間の判断と強い相関を示す。
さらに,パラメータアンサンブルとマルチタスク学習という2つのサブメトリックを組み合わせる方法を検討する。
どちらのアプローチも、個々のサブメトリックを大幅に上回る総合的なメトリックを生み出す。
既存の最先端の指標と比較すると、3つの高品質な対話レベルの評価ベンチマークで平均16%の相対的な改善を達成している。
関連論文リスト
- PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for
Evaluating Open-Domain Dialogue [15.31433922183745]
オープンドメイン対話の評価のための相関再スケーリング(MME-CRS)に基づくマルチメトリック評価を提案する。
MME-CRSはDSTC10トラック5サブタスクの最終テストデータで第1位である。
論文 参考訳(メタデータ) (2022-06-19T13:43:59Z) - MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation [66.60285024216573]
対話評価器はドメイン間の評価も行うことが期待される。
最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
論文 参考訳(メタデータ) (2021-12-14T07:01:20Z) - A Comprehensive Assessment of Dialog Evaluation Metrics [9.34612743192798]
標準言語評価指標は、ダイアログを評価するのに有効ではない。
近年の研究では、人間の判断とよく相関する、対話特有の新しい指標がいくつか提案されている。
本稿では,最近提案された対話評価指標を包括的に評価する。
論文 参考訳(メタデータ) (2021-06-07T15:17:03Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。