論文の概要: Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation
- arxiv url: http://arxiv.org/abs/2005.10716v2
- Date: Fri, 12 Jun 2020 04:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 22:36:39.032080
- Title: Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation
- Title(参考訳): ユーザ自己報告型Quat Scale Ratingsを超えて:自動ダイアログ評価のための比較モデル
- Authors: Weixin Liang, James Zou, Zhou Yu
- Abstract要約: オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
- 参考スコア(独自算出の注目度): 69.03658685761538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open Domain dialog system evaluation is one of the most important challenges
in dialog research. Existing automatic evaluation metrics, such as BLEU are
mostly reference-based. They calculate the difference between the generated
response and a limited number of available references. Likert-score based
self-reported user rating is widely adopted by social conversational systems,
such as Amazon Alexa Prize chatbots. However, self-reported user rating suffers
from bias and variance among different users. To alleviate this problem, we
formulate dialog evaluation as a comparison task. We also propose an automatic
evaluation model CMADE (Comparison Model for Automatic Dialog Evaluation) that
automatically cleans self-reported user ratings as it trains on them.
Specifically, we first use a self-supervised method to learn better dialog
feature representation, and then use KNN and Shapley to remove confusing
samples. Our experiments show that CMADE achieves 89.2% accuracy in the dialog
comparison task.
- Abstract(参考訳): オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
BLEUのような既存の自動評価指標はほとんど参照ベースである。
生成されたレスポンスと利用可能な参照数との差を計算する。
Likert-scoreベースの自己報告型ユーザ評価は、Amazon Alexa Prizeチャットボットなどのソーシャル会話システムで広く採用されている。
しかし、自己報告されたユーザレーティングは、異なるユーザ間のバイアスとばらつきに苦しむ。
この問題を緩和するため、比較課題としてダイアログ評価を定式化する。
また,自動評価モデルCMADE(Comparison Model for Automatic Dialog Evaluation)を提案する。
具体的には、まず自己教師付き手法を用いて、より良い対話特徴表現を学習し、次にKNNとShapleyを使用して、混乱したサンプルを除去する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
関連論文リスト
- Improving Open-Domain Dialogue Evaluation with a Causal Inference Model [8.625569782672663]
明示的な満足度評価はユーザーから引き出すことができるが、ユーザーは質問された時に評価を提供しないことが多い。
専門家によるポストホック評価は代替案だが、これらは高価で複雑だ。
本稿では,オープンドメイン対話のエキスパート評価とユーザ評価の両方を予測する自動手法の開発について検討する。
論文 参考訳(メタデータ) (2023-01-31T02:31:42Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation [66.60285024216573]
対話評価器はドメイン間の評価も行うことが期待される。
最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
論文 参考訳(メタデータ) (2021-12-14T07:01:20Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Modeling Performance in Open-Domain Dialogue with PARADISE [7.516971632888974]
本研究では,実際のユーザと数千の会話に参加した対話システムであるAthenaの性能を予測するためのPARADISEモデルを開発した。
私たちのゴールは、任意のAlexa Prizeシステムの対話選択をリアルタイムで最適化するために使用できる汎用関数を学習することです。
論文 参考訳(メタデータ) (2021-10-21T14:17:59Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。