論文の概要: Question and Answer Test-Train Overlap in Open-Domain Question Answering
Datasets
- arxiv url: http://arxiv.org/abs/2008.02637v1
- Date: Thu, 6 Aug 2020 13:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:36:14.948902
- Title: Question and Answer Test-Train Overlap in Open-Domain Question Answering
Datasets
- Title(参考訳): Open Domain Question Answering Datasetsにおけるテストトレインオーバーラップに関する質問と回答
- Authors: Patrick Lewis, Pontus Stenetorp, Sebastian Riedel
- Abstract要約: 3つの人気のあるオープンドメインベンチマークデータセットのテストセットについて検討する。
テストタイムの回答の60~70%は、トレーニングセットのどこかに存在しています。
また、テストセット質問の30%が、対応するトレーニングセットにほぼ重複したパラフレーズを持っていることも判明した。
- 参考スコア(独自算出の注目度): 37.02260241742407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ideally Open-Domain Question Answering models should exhibit a number of
competencies, ranging from simply memorizing questions seen at training time,
to answering novel question formulations with answers seen during training, to
generalizing to completely novel questions with novel answers. However, single
aggregated test set scores do not show the full picture of what capabilities
models truly have. In this work, we perform a detailed study of the test sets
of three popular open-domain benchmark datasets with respect to these
competencies. We find that 60-70% of test-time answers are also present
somewhere in the training sets. We also find that 30% of test-set questions
have a near-duplicate paraphrase in their corresponding training sets. Using
these findings, we evaluate a variety of popular open-domain models to obtain
greater insight into what extent they can actually generalize, and what drives
their overall performance. We find that all models perform dramatically worse
on questions that cannot be memorized from training sets, with a mean absolute
performance difference of 63% between repeated and non-repeated data. Finally
we show that simple nearest-neighbor models out-perform a BART closed-book QA
model, further highlighting the role that training set memorization plays in
these benchmarks
- Abstract(参考訳): 理想的には、オープンドメイン質問回答モデルは、単にトレーニング時に見られる質問を覚えることから、トレーニング中に見られる回答で新しい質問に答えること、新しい回答で全く新しい質問を一般化することまで、さまざまな能力を示すべきである。
しかし、単一の集計されたテストセットスコアは、モデルが真に持つ能力の全体像を示さない。
本研究では,これらの能力に関して,人気のある3つのオープンドメインベンチマークデータセットのテストセットについて詳細な研究を行う。
テストタイムの回答の60~70%は、トレーニングセットのどこかに存在しています。
また、テストセット質問の30%が、対応するトレーニングセットにほぼ重複したパラフレーズを持っていることも判明した。
これらの知見を用いて、我々は様々な人気のあるオープンドメインモデルを評価し、それらが実際に一般化できる範囲と、その全体的なパフォーマンスを駆動する要因についてより深い知見を得る。
すべてのモデルがトレーニングセットから記憶できない問題に対して劇的にパフォーマンスを低下させ、反復データと非繰り返しデータの間の絶対パフォーマンスの差は63%であることがわかった。
最後に、BARTクローズドブックQAモデルよりもすぐ近くの単純なモデルを示し、これらのベンチマークでトレーニングセット記憶が果たす役割をさらに強調する。
関連論文リスト
- Robust Training for Conversational Question Answering Models with
Reinforced Reformulation Generation [26.752549844734034]
本研究は,ゴールドQAペアのみの標準トレーニングを施したConvQAモデルにおいて,厳密なトレーニングを施したConvQAモデルよりも有意に優れていたことを示す。
1つのベンチマークで主要なモデルコンポーネントをトレーニングし、それを別のベンチマークにゼロショットで適用できることを実証する。
論文 参考訳(メタデータ) (2023-10-20T13:51:08Z) - QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。
我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。
我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文 参考訳(メタデータ) (2023-03-30T00:42:07Z) - Challenges in Generalization in Open Domain Question Answering [16.63912089965166]
我々は,異なるレベルと種類の一般化を測る3つのカテゴリに従って,質問を導入し,注釈する。
主な課題は、検索コンポーネントからの誤りのカスケード、質問パターンの頻度、エンティティの頻度である。
論文 参考訳(メタデータ) (2021-09-02T18:04:10Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z) - MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering
Models [25.398047573530985]
ReQA(Retrieval Question answering)は、オープンコーパスから質問に対する文レベルの回答を検索するタスクである。
本稿では、公開されているQAデータセットから抽出された8つの検索QAタスクからなる新しいマルチドメインReQA評価スイートであるMultiReQAを提案する。
論文 参考訳(メタデータ) (2020-05-05T21:30:16Z) - ProtoQA: A Question Answering Dataset for Prototypical Common-Sense
Reasoning [35.6375880208001]
本稿では,人工知能システムの常識推論能力をトレーニングし,評価するための新しい質問応答データセットを提案する。
トレーニングセットは、長期にわたる国際ゲームショーFAMILY-FEUDでプレイされている既存の質問セットから収集される。
また,モデルがランク付けされた回答リストを出力しなければならない生成的評価タスクを提案する。
論文 参考訳(メタデータ) (2020-05-02T09:40:05Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。