論文の概要: MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation
- arxiv url: http://arxiv.org/abs/2112.07194v1
- Date: Tue, 14 Dec 2021 07:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:12:00.383375
- Title: MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation
- Title(参考訳): MDD-Eval:マルチドメイン対話評価のための拡張データの自己評価
- Authors: Chen Zhang, Luis Fernando D'Haro, Thomas Friedrichs and Haizhou Li
- Abstract要約: 対話評価器はドメイン間の評価も行うことが期待される。
最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
- 参考スコア(独自算出の注目度): 66.60285024216573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chatbots are designed to carry out human-like conversations across different
domains, such as general chit-chat, knowledge exchange, and persona-grounded
conversations. To measure the quality of such conversational agents, a dialogue
evaluator is expected to conduct assessment across domains as well. However,
most of the state-of-the-art automatic dialogue evaluation metrics (ADMs) are
not designed for multi-domain evaluation. We are motivated to design a general
and robust framework, MDD-Eval, to address the problem. Specifically, we first
train a teacher evaluator with human-annotated data to acquire a rating skill
to tell good dialogue responses from bad ones in a particular domain and then,
adopt a self-training strategy to train a new evaluator with teacher-annotated
multi-domain data, that helps the new evaluator to generalize across multiple
domains. MDD-Eval is extensively assessed on six dialogue evaluation
benchmarks. Empirical results show that the MDD-Eval framework achieves a
strong performance with an absolute improvement of 7% over the state-of-the-art
ADMs in terms of mean Spearman correlation scores across all the evaluation
benchmarks.
- Abstract(参考訳): チャットボットは、一般的なチットチャット、知識交換、パーソナライズされた会話など、さまざまなドメインで人間的な会話を実行するように設計されている。
このような対話エージェントの品質を測定するため、対話評価器はドメイン間でも評価を行うことが期待される。
しかし、最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
具体的には,まず,教師に注釈付きデータで評価器を訓練し,評価スキルを習得し,特定のドメインの悪者から適切な対話応答を伝えるとともに,教師に注釈付きマルチドメインデータで新たな評価器を訓練する自己学習戦略を採用して,新しい評価器が複数のドメインにまたがる一般化を支援する。
MDD-Evalは6つの対話評価ベンチマークで広く評価されている。
実験の結果,MDD-Evalフレームワークは,すべての評価ベンチマークにおける平均スピアマン相関スコアにおいて,最先端のADMよりも7%,絶対的に向上した。
関連論文リスト
- ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue
Assessment [38.26039323208791]
オープンドメインの対話品質を自動的に評価するための大規模対話品質評価データセット(DiQAD)をリリースする。
具体的には,対話の質に関する人間の判断に適合する寸法に基づいて,評価基準を確立する。
また、これらの基準に基づいて実際のユーザ間で会話する大規模な対話を注釈付けし、約10万の対話を含む。
論文 参考訳(メタデータ) (2023-10-25T03:04:57Z) - PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment [58.46761798403072]
モデルベース自動対話評価基準(ADEM)は,複数の領域にわたって良好に機能することが期待される。
大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。
本稿では,共有トランスフォーマーエンコーダと軽量アダプタの集合からなるPanel of Experts (PoE)ネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-18T02:26:50Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for
Evaluating Open-Domain Dialogue [15.31433922183745]
オープンドメイン対話の評価のための相関再スケーリング(MME-CRS)に基づくマルチメトリック評価を提案する。
MME-CRSはDSTC10トラック5サブタスクの最終テストデータで第1位である。
論文 参考訳(メタデータ) (2022-06-19T13:43:59Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。