論文の概要: Improving Automated Evaluation of Open Domain Dialog via Diverse
Reference Augmentation
- arxiv url: http://arxiv.org/abs/2106.02833v1
- Date: Sat, 5 Jun 2021 08:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 07:16:56.506756
- Title: Improving Automated Evaluation of Open Domain Dialog via Diverse
Reference Augmentation
- Title(参考訳): Diverse Reference Augmentationによるオープンドメインダイアログの自動評価の改善
- Authors: Varun Gangal, Harsh Jhamtani, Eduard Hovy, Taylor Berg-Kirkpatrick
- Abstract要約: 本稿では,人間の生成した参照を自動的に拡張する手法を提案する。
我々は、知識ソースから妥当な参照を取得し、それらが、問題となるダイアログインスタンスのコンテキストにより精通するように適応する。
- 参考スコア(独自算出の注目度): 30.841109045790862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple different responses are often plausible for a given open domain
dialog context. Prior work has shown the importance of having multiple valid
reference responses for meaningful and robust automated evaluations. In such
cases, common practice has been to collect more human written references.
However, such collection can be expensive, time consuming, and not easily
scalable. Instead, we propose a novel technique for automatically expanding a
human generated reference to a set of candidate references. We fetch plausible
references from knowledge sources, and adapt them so that they are more fluent
in context of the dialog instance in question. More specifically, we use (1) a
commonsense knowledge base to elicit a large number of plausible reactions
given the dialog history (2) relevant instances retrieved from dialog corpus,
using similar past as well as future contexts. We demonstrate that our
automatically expanded reference sets lead to large improvements in
correlations of automated metrics with human ratings of system outputs for
DailyDialog dataset.
- Abstract(参考訳): 複数の異なる応答は、与えられたオープンドメインのダイアログのコンテキストによく当てはまる。
先行研究では、有意義で堅牢な自動評価のために、複数の有効な参照応答を持つことの重要性が示されている。
このような場合、より人間的な文献を収集することが一般的である。
しかし、そのようなコレクションは高価で、時間もかかり、スケーラブルではない。
そこで本研究では,人間の生成した参照を自動的に拡張する新しい手法を提案する。
我々は、知識ソースから妥当な参照を取得し、それらが、問題となるダイアログインスタンスのコンテキストにより精通するように適応する。
より具体的には、(1)ダイアログコーパスから検索された関連インスタンスと、類似の過去と将来の状況とを考慮し、多数の妥当な反応を導き出すためのコモンセンス知識ベースを用いる。
自動拡張された参照セットは、DailyDialogデータセットのシステムアウトプットの人的評価と自動メトリクスの相関性を大幅に向上させることを示す。
関連論文リスト
- Evaluating Open-Domain Dialogues in Latent Space with Next Sentence
Prediction and Mutual Information [18.859159491548006]
オープンドメイン対話のための新しい学習ベース自動評価指標(CMN)を提案する。
条件付き変分オートエンコーダ(CVAE)をNext Sentence Prediction(NSP)の対象とし,相互情報(MI)を用いて潜在空間におけるテキストの意味的類似性をモデル化する。
2つのオープンドメイン対話データセットの実験結果は、幅広いベースラインと比較して、我々の手法の優位性を示している。
論文 参考訳(メタデータ) (2023-05-26T14:21:54Z) - Counterfactual Data Augmentation via Perspective Transition for
Open-Domain Dialogues [34.78482218571574]
本稿では,異なるセマンティクスによる高品質な応答を自動的に拡張するデータ拡張手法を提案する。
実験結果から,データ拡張手法は対話履歴の異なるセマンティクスで高品質な応答を増強し,複数の下流タスクにおいて競合的ベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2022-10-30T13:26:49Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。