論文の概要: Unsupervised Evaluation of Interactive Dialog with DialoGPT
- arxiv url: http://arxiv.org/abs/2006.12719v1
- Date: Tue, 23 Jun 2020 03:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:50:25.898962
- Title: Unsupervised Evaluation of Interactive Dialog with DialoGPT
- Title(参考訳): 対話型対話対話の教師なし評価
- Authors: Shikib Mehri and Maxine Eskenazi
- Abstract要約: 本稿では,DialoGPTを用いたFED測定(ダイアログのきめ細かい評価)について紹介する。
また、人間のシステムと人間の会話のセットに注釈を付けることで構築されるFEDデータセットも導入している。
- 参考スコア(独自算出の注目度): 10.508187462682308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is important to define meaningful and interpretable automatic evaluation
metrics for open-domain dialog research. Standard language generation metrics
have been shown to be ineffective for dialog. This paper introduces the FED
metric (fine-grained evaluation of dialog), an automatic evaluation metric
which uses DialoGPT, without any fine-tuning or supervision. It also introduces
the FED dataset which is constructed by annotating a set of human-system and
human-human conversations with eighteen fine-grained dialog qualities. The FED
metric (1) does not rely on a ground-truth response, (2) does not require
training data and (3) measures fine-grained dialog qualities at both the turn
and whole dialog levels. FED attains moderate to strong correlation with human
judgement at both levels.
- Abstract(参考訳): オープンドメインダイアログ研究における意味的かつ解釈可能な自動評価指標を定義することが重要である。
標準言語生成メトリクスは、ダイアログに効果がないことが示されている。
本稿では,DialoGPTを用いた自動評価尺度であるFEDメトリックス(微粒なダイアログ評価)について,微調整や監督を行わずに紹介する。
また、FEDデータセットを導入し、人間のシステムと人間の会話のセットに18のきめ細かいダイアログ品質で注釈を付ける。
FEDメトリック(1)は、基調応答に依存しず、(2)訓練データを必要としない、(3)ターンレベルと全ダイアログレベルの両方で詳細なダイアログ品質を測定する。
FEDは、双方のレベルでヒトの判断と中程度から強い相関を持つ。
関連論文リスト
- Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Psychological Metrics for Dialog System Evaluation [16.16116910201279]
我々は,人間コミュニケーションと人間関係の基礎となる,確立された心理学から解釈可能な5つの指標を提示する。
心理学的メトリクスは、7つの最先端の伝統的なメトリクスと比較される。
論文 参考訳(メタデータ) (2023-05-24T06:02:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - USR: An Unsupervised and Reference Free Evaluation Metric for Dialog
Generation [10.508187462682308]
本稿では,アンスーパーバイザおよび参照不要なダイアログ評価指標であるUSRについて述べる。
USRは、いくつかの望ましいダイアログの質を測定するために教師なしモデルを訓練する参照なしメトリックである。
論文 参考訳(メタデータ) (2020-05-01T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。