論文の概要: USR: An Unsupervised and Reference Free Evaluation Metric for Dialog
Generation
- arxiv url: http://arxiv.org/abs/2005.00456v1
- Date: Fri, 1 May 2020 15:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 22:50:50.605328
- Title: USR: An Unsupervised and Reference Free Evaluation Metric for Dialog
Generation
- Title(参考訳): usr: 対話生成のための教師なしおよび参照フリー評価指標
- Authors: Shikib Mehri and Maxine Eskenazi
- Abstract要約: 本稿では,アンスーパーバイザおよび参照不要なダイアログ評価指標であるUSRについて述べる。
USRは、いくつかの望ましいダイアログの質を測定するために教師なしモデルを訓練する参照なしメトリックである。
- 参考スコア(独自算出の注目度): 10.508187462682308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of meaningful automatic evaluation metrics for dialog has impeded
open-domain dialog research. Standard language generation metrics have been
shown to be ineffective for evaluating dialog models. To this end, this paper
presents USR, an UnSupervised and Reference-free evaluation metric for dialog.
USR is a reference-free metric that trains unsupervised models to measure
several desirable qualities of dialog. USR is shown to strongly correlate with
human judgment on both Topical-Chat (turn-level: 0.42, system-level: 1.0) and
PersonaChat (turn-level: 0.48 and system-level: 1.0). USR additionally produces
interpretable measures for several desirable properties of dialog.
- Abstract(参考訳): ダイアログに対する有意義な自動評価指標の欠如は、オープンドメインダイアログ研究を妨げている。
標準言語生成メトリクスは、ダイアログモデルの評価に効果がないことが示されている。
そこで本稿では,UnSupervised and Reference-free Evaluation metricであるUSRについて述べる。
USRは、いくつかの望ましいダイアログの質を測定するために教師なしモデルを訓練する参照なしメトリックである。
USRは、Topical-Chat(ターンレベル:0.42、システムレベル:1.0)とPersonaChat(ターンレベル:0.48、システムレベル:1.0)の両方の人間の判断と強く相関している。
USRはまた、いくつかの望ましいダイアログ特性の解釈可能な尺度も生成する。
関連論文リスト
- ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - Unsupervised Evaluation of Interactive Dialog with DialoGPT [10.508187462682308]
本稿では,DialoGPTを用いたFED測定(ダイアログのきめ細かい評価)について紹介する。
また、人間のシステムと人間の会話のセットに注釈を付けることで構築されるFEDデータセットも導入している。
論文 参考訳(メタデータ) (2020-06-23T03:36:09Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。