論文の概要: Speaker Sensitive Response Evaluation Model
- arxiv url: http://arxiv.org/abs/2006.07015v1
- Date: Fri, 12 Jun 2020 08:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 04:08:17.361629
- Title: Speaker Sensitive Response Evaluation Model
- Title(参考訳): 話者感性反応評価モデル
- Authors: JinYeong Bak, Alice Oh
- Abstract要約: 本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
- 参考スコア(独自算出の注目度): 17.381658875470638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation of open-domain dialogue response generation is very
challenging because there are many appropriate responses for a given context.
Existing evaluation models merely compare the generated response with the
ground truth response and rate many of the appropriate responses as
inappropriate if they deviate from the ground truth. One approach to resolve
this problem is to consider the similarity of the generated response with the
conversational context. In this paper, we propose an automatic evaluation model
based on that idea and learn the model parameters from an unlabeled
conversation corpus. Our approach considers the speakers in defining the
different levels of similar context. We use a Twitter conversation corpus that
contains many speakers and conversations to test our evaluation model.
Experiments show that our model outperforms the other existing evaluation
metrics in terms of high correlation with human annotation scores. We also show
that our model trained on Twitter can be applied to movie dialogues without any
additional training. We provide our code and the learned parameters so that
they can be used for automatic evaluation of dialogue response generation
models.
- Abstract(参考訳): 任意のコンテキストに対して適切な応答が多数存在するため、オープンドメインの対話応答生成の自動評価は非常に難しい。
既存の評価モデルでは、生成した応答を基底真理応答と比較するだけで、それらが基底真理から逸脱した場合に適切な応答の多くを不適切であると評価する。
この問題を解決する一つのアプローチは、生成した応答と会話のコンテキストとの類似性を検討することである。
本稿では,そのアイデアに基づいた自動評価モデルを提案し,ラベルのない会話コーパスからモデルパラメータを学習する。
我々のアプローチは、話者が類似した文脈の異なるレベルを定義することである。
評価モデルをテストするために、多くの話者や会話を含むTwitter会話コーパスを使用します。
実験の結果, 既存の評価基準よりも, ヒトのアノテーションスコアとの相関度が高いという結果が得られた。
また、Twitterでトレーニングしたモデルを、追加のトレーニングなしで映画対話に適用できることも示しています。
我々は,対話応答生成モデルの自動評価に使用できるように,コードと学習パラメータを提供する。
関連論文リスト
- Automatic Evaluation of Speaker Similarity [0.0]
本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T11:23:16Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - Designing Precise and Robust Dialogue Response Evaluators [35.137244385158034]
我々は,参照自由評価器を構築し,半教師付きトレーニングと事前訓練言語モデルのパワーを活用することを提案する。
実験結果から,提案した評価器は人的判断と強い相関(>0.6)を達成できることが示された。
論文 参考訳(メタデータ) (2020-04-10T04:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。