論文の概要: MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for
Evaluating Open-Domain Dialogue
- arxiv url: http://arxiv.org/abs/2206.09403v1
- Date: Sun, 19 Jun 2022 13:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 15:48:16.553849
- Title: MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for
Evaluating Open-Domain Dialogue
- Title(参考訳): MME-CRS:オープンドメイン対話評価のための相関再スケーリングに基づくマルチメトリック評価
- Authors: Pengfei Zhang, Xiaohui Hu, Kaidong Yu, Jian Wang, Song Han, Cao Liu,
Chunyang Yuan
- Abstract要約: オープンドメイン対話の評価のための相関再スケーリング(MME-CRS)に基づくマルチメトリック評価を提案する。
MME-CRSはDSTC10トラック5サブタスクの最終テストデータで第1位である。
- 参考スコア(独自算出の注目度): 15.31433922183745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic open-domain dialogue evaluation is a crucial component of dialogue
systems. Recently, learning-based evaluation metrics have achieved
state-of-the-art performance in open-domain dialogue evaluation. However, these
metrics, which only focus on a few qualities, are hard to evaluate dialogue
comprehensively. Furthermore, these metrics lack an effective score composition
approach for diverse evaluation qualities. To address the above problems, we
propose a Multi-Metric Evaluation based on Correlation Re-Scaling (MME-CRS) for
evaluating open-domain dialogue. Firstly, we build an evaluation metric
composed of 5 groups of parallel sub-metrics called Multi-Metric Evaluation
(MME) to evaluate the quality of dialogue comprehensively. Furthermore, we
propose a novel score composition method called Correlation Re-Scaling (CRS) to
model the relationship between sub-metrics and diverse qualities. Our approach
MME-CRS ranks first on the final test data of DSTC10 track5 subtask1 Automatic
Open-domain Dialogue Evaluation Challenge with a large margin, which proved the
effectiveness of our proposed approach.
- Abstract(参考訳): 自動オープンドメイン対話評価は対話システムにおいて重要な要素である。
近年,オープンドメイン対話評価において,学習に基づく評価指標が最先端のパフォーマンスを達成した。
しかしながら、これらの指標は少数の品質にのみ焦点を合わせており、対話を包括的に評価することは困難である。
さらに、これらの指標は、様々な評価品質に対する効果的なスコア構成アプローチを欠いている。
本稿では,オープンドメイン対話を評価するために,相関再スケーリング(mme-crs)に基づくマルチメトリック評価を提案する。
まず,MME(Multi-Metric Evaluation)と呼ばれる5つの並列サブメトリックからなる評価尺度を構築し,対話の質を総合的に評価する。
さらに、サブメトリックと多様な品質の関係をモデル化するための相関再スケーリング(CRS)と呼ばれる新しいスコア合成手法を提案する。
MME-CRS は DSTC10 track5 subtask1 の自動開領域対話評価チャレンジの最終試験データで第1位となり,提案手法の有効性が証明された。
関連論文リスト
- ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue
Assessment [38.26039323208791]
オープンドメインの対話品質を自動的に評価するための大規模対話品質評価データセット(DiQAD)をリリースする。
具体的には,対話の質に関する人間の判断に適合する寸法に基づいて,評価基準を確立する。
また、これらの基準に基づいて実際のユーザ間で会話する大規模な対話を注釈付けし、約10万の対話を含む。
論文 参考訳(メタデータ) (2023-10-25T03:04:57Z) - Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation [66.60285024216573]
対話評価器はドメイン間の評価も行うことが期待される。
最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
論文 参考訳(メタデータ) (2021-12-14T07:01:20Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。