論文の概要: Open-Domain Dialog Evaluation using Follow-Ups Likelihood
- arxiv url: http://arxiv.org/abs/2209.05185v1
- Date: Mon, 12 Sep 2022 12:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:01:56.709308
- Title: Open-Domain Dialog Evaluation using Follow-Ups Likelihood
- Title(参考訳): Follow-Ups Likelihood を用いたオープンドメインダイアログ評価
- Authors: Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans
- Abstract要約: 本稿では,フォローアップを用いた新しい自動評価手法を提案する。
12種類の既存手法と比較すると, 人的評価と高い相関が得られた。
- 参考スコア(独自算出の注目度): 7.327190547312686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation of open-domain dialogs remains an unsolved problem.
Moreover, existing methods do not correlate strongly with human annotations.
This paper presents a new automated evaluation method using follow-ups: we
measure the probability that a language model will continue the conversation
with a fixed set of follow-ups (e.g., not really relevant here, what are you
trying to say). When compared against twelve existing methods, our new
evaluation achieves the highest correlation with human evaluations.
- Abstract(参考訳): オープンドメインダイアログの自動評価は未解決の問題である。
また,既存の手法は人間のアノテーションと強く相関しない。
本稿では,フォローアップを用いた新たな自動評価手法を提案する: 言語モデルが一定組のフォローアップと会話を続ける確率を測定する(例えば,ここでは本当に関係がない,何を言いたいのか,など)。
既存の12の手法と比較すると,人間の評価と高い相関性が得られる。
関連論文リスト
- C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。
また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文 参考訳(メタデータ) (2021-08-03T08:52:33Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。