論文の概要: Improving Dialog Evaluation with a Multi-reference Adversarial Dataset
and Large Scale Pretraining
- arxiv url: http://arxiv.org/abs/2009.11321v1
- Date: Wed, 23 Sep 2020 18:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:12:42.023628
- Title: Improving Dialog Evaluation with a Multi-reference Adversarial Dataset
and Large Scale Pretraining
- Title(参考訳): multi-reference adversarial dataset と large scale pretraining によるダイアログ評価の改善
- Authors: Ananya B. Sai, Akash Kumar Mohankumar, Siddhartha Arora, Mitesh M.
Khapra
- Abstract要約: i) コンテキストごとに5つの関連する応答と,(ii) コンテキスト毎に無関係な応答を5つの対向的に作成するDailyDialog++データセットを導入する。
複数の正しい参照が存在する場合でも、n-gramベースのメトリクスと埋め込みベースのメトリクスは、関連する応答をランダムな負と区別するのにうまく機能しないことを示す。
DEBと呼ばれる新しいBERTベースの評価指標を提案し、これはRedditの7億2700万の会話で事前トレーニングされ、データセットで微調整される。
- 参考スコア(独自算出の注目度): 18.174086416883412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing focus on model-based dialog evaluation metrics such as
ADEM, RUBER, and the more recent BERT-based metrics. These models aim to assign
a high score to all relevant responses and a low score to all irrelevant
responses. Ideally, such models should be trained using multiple relevant and
irrelevant responses for any given context. However, no such data is publicly
available, and hence existing models are usually trained using a single
relevant response and multiple randomly selected responses from other contexts
(random negatives). To allow for better training and robust evaluation of
model-based metrics, we introduce the DailyDialog++ dataset, consisting of (i)
five relevant responses for each context and (ii) five adversarially crafted
irrelevant responses for each context. Using this dataset, we first show that
even in the presence of multiple correct references, n-gram based metrics and
embedding based metrics do not perform well at separating relevant responses
from even random negatives. While model-based metrics perform better than
n-gram and embedding based metrics on random negatives, their performance drops
substantially when evaluated on adversarial examples. To check if large scale
pretraining could help, we propose a new BERT-based evaluation metric called
DEB, which is pretrained on 727M Reddit conversations and then finetuned on our
dataset. DEB significantly outperforms existing models, showing better
correlation with human judgements and better performance on random negatives
(88.27% accuracy). However, its performance again drops substantially, when
evaluated on adversarial responses, thereby highlighting that even large-scale
pretrained evaluation models are not robust to the adversarial examples in our
dataset. The dataset and code are publicly available.
- Abstract(参考訳): ADEMやRUBERといったモデルベースのダイアログ評価メトリクスや、最近のBERTベースのメトリクスに注目が集まっている。
これらのモデルは、関連するすべての応答に高いスコアを割り当て、関連するすべての応答に低いスコアを割り当てることを目的としている。
理想的には、そのようなモデルは、任意のコンテキストに対して複数の関連かつ無関係な応答を使って訓練されるべきである。
しかし、そのようなデータは公開されていないため、既存のモデルは、通常、1つの関連する応答と複数のランダムに選択された応答(ランダムな否定)を使用して訓練される。
モデルベースのメトリクスのトレーニングと堅牢な評価を可能にするために、dailydialog++データセットを紹介します。
(i)各文脈に対する5つの関連回答
(二)それぞれの文脈に無関係な反応を5つ作り出した。
このデータセットを用いて、複数の正しい参照が存在する場合でも、n-gramベースのメトリクスと埋め込みベースのメトリクスは、関連する応答と無作為な否定を区別するのにうまく機能しないことを示す。
モデルベースのメトリクスはn-gramよりもパフォーマンスが良く、ランダムな負のメトリクスが組み込まれていますが、そのパフォーマンスは逆の例で評価すると大幅に低下します。
大規模な事前トレーニングが役立つかどうかを確認するために、新しいBERTベースの評価指標DEBを提案し、これはRedditの7億2700万の会話で事前トレーニングされ、データセットで微調整される。
DEBは既存のモデルよりも優れており、人間の判断との相関性が良く、ランダムなネガティブ(88.27%の精度)の性能が向上している。
しかし、逆応答で評価すると、パフォーマンスは再び低下し、大規模な事前学習された評価モデルでさえ、データセットの逆応答の例に対して堅牢ではないことが強調される。
データセットとコードは公開されている。
関連論文リスト
- Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T04:06:08Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - AB/BA analysis: A framework for estimating keyword spotting recall
improvement while maintaining audio privacy [0.0]
KWSはキーワードが存在する場合にのみデータを集めるように設計されており、偽陰性を含む可能性のあるハードサンプルの入手を制限している。
AB/BA解析と呼ばれる評価手法を提案する。
AB/BA分析は, 相対的偽陽性率のトレードオフに伴うリコール改善の測定に成功していることを示す。
論文 参考訳(メタデータ) (2022-04-18T13:52:22Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Logical Reasoning for Task Oriented Dialogue Systems [57.440956636333325]
本稿では,ロバータやT5などの変圧器モデルに対して,与えられた対話コンテキストにおける事実の集合を推論する新しい手法を提案する。
本手法は,モデルが論理関係を学習するのに役立つ合成データ生成機構を含む。
対話コンテキストが全ての必要な情報を含む場合、変換器に基づくモデルが論理的推論を行い、質問に答えることを示す。
論文 参考訳(メタデータ) (2022-02-08T21:46:27Z) - Identifying Untrustworthy Samples: Data Filtering for Open-domain
Dialogues with Bayesian Optimization [28.22184410167622]
オープンドメイン対話のためのデータフィルタリング手法を提案する。
トレーニングサンプルを品質基準で評価し、下位順にソートし、下位でそれらをフィルタリングします。
2つのデータセットに対する実験結果から,本手法は信頼できないサンプルを効果的に同定できることが示唆された。
論文 参考訳(メタデータ) (2021-09-14T06:42:54Z) - Synthesizing Adversarial Negative Responses for Robust Response Ranking
and Evaluation [34.52276336319678]
オープンドメインニューラルダイアログモデルは、応答のランク付けと評価タスクにおいて高い性能を達成している。
コンテンツ類似性への過度な依存は、モデルが不整合の存在に敏感でないようにする。
本稿では,逆負の学習データを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-10T16:20:55Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。