論文の概要: Learning an Unreferenced Metric for Online Dialogue Evaluation
- arxiv url: http://arxiv.org/abs/2005.00583v1
- Date: Fri, 1 May 2020 20:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:00:54.127228
- Title: Learning an Unreferenced Metric for Online Dialogue Evaluation
- Title(参考訳): オンライン対話評価のための非参照メトリクスの学習
- Authors: Koustuv Sinha, Prasanna Parthasarathi, Jasmine Wang, Ryan Lowe,
William L. Hamilton, Joelle Pineau
- Abstract要約: 本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
- 参考スコア(独自算出の注目度): 53.38078951628143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the quality of a dialogue interaction between two agents is a
difficult task, especially in open-domain chit-chat style dialogue. There have
been recent efforts to develop automatic dialogue evaluation metrics, but most
of them do not generalize to unseen datasets and/or need a human-generated
reference response during inference, making it infeasible for online
evaluation. Here, we propose an unreferenced automated evaluation metric that
uses large pre-trained language models to extract latent representations of
utterances, and leverages the temporal transitions that exist between them. We
show that our model achieves higher correlation with human annotations in an
online setting, while not requiring true responses for comparison during
inference.
- Abstract(参考訳): 2つのエージェント間の対話の質を評価することは、特にオープンドメインのチャットスタイルの対話において難しい課題である。
近年, 自動対話評価尺度の開発が試みられているが, ほとんどは見当たらないデータセットに一般化せず, 推論中に人為的な参照応答を必要とするため, オンライン評価では不可能である。
本稿では,大規模事前学習された言語モデルを用いて発話の潜在表現を抽出し,それらの間に存在する時間的遷移を活用する非参照自動評価指標を提案する。
提案手法は,オンライン環境での人間のアノテーションとの相関性を高めつつ,推論中の比較に真の応答を必要としないことを示す。
関連論文リスト
- CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5428962271088]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。
実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T06:08:16Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。