論文の概要: What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation
- arxiv url: http://arxiv.org/abs/2203.13927v1
- Date: Fri, 25 Mar 2022 22:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:11:48.803088
- Title: What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation
- Title(参考訳): あなたはどうしたのですか。
自動対話評価のためのユーザ感の活用
- Authors: Sarik Ghazarian, Behnam Hedayatnia, Alexandros Papangelis, Yang Liu,
Dilek Hakkani-Tur
- Abstract要約: 本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
- 参考スコア(独自算出の注目度): 73.03318027164605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate automatic evaluation metrics for open-domain dialogs are in high
demand. Existing model-based metrics for system response evaluation are trained
on human annotated data, which is cumbersome to collect. In this work, we
propose to use information that can be automatically extracted from the next
user utterance, such as its sentiment or whether the user explicitly ends the
conversation, as a proxy to measure the quality of the previous system
response. This allows us to train on a massive set of dialogs with weak
supervision, without requiring manual system turn quality annotations.
Experiments show that our model is comparable to models trained on human
annotated data. Furthermore, our model generalizes across both spoken and
written open-domain dialog corpora collected from real and paid users.
- Abstract(参考訳): オープンドメインダイアログの正確な自動評価メトリクスは需要が高い。
システム応答評価のための既存のモデルベースのメトリクスは、人間の注釈付きデータに基づいて訓練される。
本稿では,ユーザの感情やユーザが会話を明示的に終了するかどうかといった,次のユーザの発話から自動的に抽出できる情報を,従来のシステム応答の質を測定するプロキシとして使用することを提案する。
これにより、手動のシステムターン品質アノテーションを必要とせずに、監督の弱い大量のダイアログをトレーニングできます。
実験により、我々のモデルは、人間の注釈データで訓練されたモデルに匹敵することが示された。
さらに,実際のユーザと有料ユーザの両方から収集したオープンドメイン対話コーパスを一般化する。
関連論文リスト
- GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。