論文の概要: User Response and Sentiment Prediction for Automatic Dialogue Evaluation
- arxiv url: http://arxiv.org/abs/2111.08808v1
- Date: Tue, 16 Nov 2021 22:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:46:59.914923
- Title: User Response and Sentiment Prediction for Automatic Dialogue Evaluation
- Title(参考訳): 対話自動評価のためのユーザ応答と感性予測
- Authors: Sarik Ghazarian, Behnam Hedayatnia, Alexandros Papangelis, Yang Liu,
Dilek Hakkani-Tur
- Abstract要約: 本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
- 参考スコア(独自算出の注目度): 69.11124655437902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation is beneficial for open-domain dialog system development.
However, standard word-overlap metrics (BLEU, ROUGE) do not correlate well with
human judgements of open-domain dialog systems. In this work we propose to use
the sentiment of the next user utterance for turn or dialog level evaluation.
Specifically we propose three methods: one that predicts the next sentiment
directly, and two others that predict the next user utterance using an
utterance or a feedback generator model and then classify its sentiment.
Experiments show our model outperforming existing automatic evaluation metrics
on both written and spoken open-domain dialogue datasets.
- Abstract(参考訳): 自動評価は、オープンドメインのダイアログシステム開発に有用である。
しかし、標準単語オーバーラップメトリクス(BLEU, ROUGE)は、オープンドメインダイアログシステムの人間の判断とよく相関しない。
本研究では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に用いることを提案する。
具体的には,次の感情を直接予測する手法と,発話やフィードバック生成モデルを用いて次のユーザの発話を予測し,感情を分類する手法を提案する。
実験により, 音声対話データセットと音声対話データセットの両方において, 既存の自動評価基準を上回ったモデルを示す。
関連論文リスト
- GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - Modeling Performance in Open-Domain Dialogue with PARADISE [7.516971632888974]
本研究では,実際のユーザと数千の会話に参加した対話システムであるAthenaの性能を予測するためのPARADISEモデルを開発した。
私たちのゴールは、任意のAlexa Prizeシステムの対話選択をリアルタイムで最適化するために使用できる汎用関数を学習することです。
論文 参考訳(メタデータ) (2021-10-21T14:17:59Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。