論文の概要: What do Models Learn from Question Answering Datasets?
- arxiv url: http://arxiv.org/abs/2004.03490v2
- Date: Tue, 13 Oct 2020 13:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:57:47.163118
- Title: What do Models Learn from Question Answering Datasets?
- Title(参考訳): 質問応答データセットからモデルは何を学ぶか?
- Authors: Priyanka Sen and Amir Saffari
- Abstract要約: モデルが質問応答データセットから読み解きを学習しているかどうかを検討する。
我々は、ドメイン外の例に対する一般化可能性、欠落や不正なデータに対する応答、質問のバリエーションを扱う能力に関するモデルを評価する。
読解を通じて質問応答のタスクをよりよく評価する,将来的なQAデータセットの構築を推奨する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While models have reached superhuman performance on popular question
answering (QA) datasets such as SQuAD, they have yet to outperform humans on
the task of question answering itself. In this paper, we investigate if models
are learning reading comprehension from QA datasets by evaluating BERT-based
models across five datasets. We evaluate models on their generalizability to
out-of-domain examples, responses to missing or incorrect data, and ability to
handle question variations. We find that no single dataset is robust to all of
our experiments and identify shortcomings in both datasets and evaluation
methods. Following our analysis, we make recommendations for building future QA
datasets that better evaluate the task of question answering through reading
comprehension. We also release code to convert QA datasets to a shared format
for easier experimentation at
https://github.com/amazon-research/qa-dataset-converter.
- Abstract(参考訳): SQuADのような一般的な質問応答(QA)データセットでは、モデルは超人的なパフォーマンスに達しているが、質問応答自体のタスクでは、人間よりも優れている。
本稿では,5つのデータセットにまたがるBERTモデルを評価することにより,QAデータセットからの読解理解を学習しているモデルについて検討する。
我々は、ドメイン外の例に対する一般化可能性、不適切なデータに対する応答、質問のバリエーションを扱う能力に関するモデルを評価する。
実験のすべてにロバストなデータセットはひとつもなく、データセットと評価方法の両方の欠点を特定しています。
分析の結果,読解による質問応答の課題をよりよく評価する,将来的なQAデータセットの構築を推奨する。
また、QAデータセットを共有フォーマットに変換し、https://github.com/amazon-research/qa-dataset-converterで簡単に実験できるようにしています。
関連論文リスト
- GSQA: An End-to-End Model for Generative Spoken Question Answering [54.418723701886115]
本稿では,システムに抽象的推論を強制するGSQA(Generative Spoken Question Answering)モデルを提案する。
本モデルでは, 抽出QAデータセットにおいて, 従来の抽出モデルよりも3%上回っている。
我々のGSQAモデルは、幅広い質問に一般化する可能性を示し、それによって、抽象的QAの音声質問応答能力をさらに拡張する。
論文 参考訳(メタデータ) (2023-12-15T13:33:18Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Disfl-QA: A Benchmark Dataset for Understanding Disfluencies in Question
Answering [21.857273918785452]
Disfl-QAは、データセットに対する新たな課題である。
Disfl-QAには、テキストのより包括的な理解を必要とする様々な難題が含まれている。
また,データ拡張手法により性能の低下を部分的に回復し,さらに細調整に金のデータを用いることの有効性を示した。
論文 参考訳(メタデータ) (2021-06-08T00:03:40Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Unsupervised Evaluation for Question Answering with Transformers [46.16837670041594]
本稿では, トランスフォーマーに基づくQAアーキテクチャにおける質問, 回答, コンテキストの隠蔽表現について検討する。
回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。
私たちはモデルの解答が正解かどうかを、SQuADの91.37%、SubjQAの80.7%の精度で予測することができる。
論文 参考訳(メタデータ) (2020-10-07T07:03:30Z) - When in Doubt, Ask: Generating Answerable and Unanswerable Questions,
Unsupervised [0.0]
質問回答(QA)は、人と機械間の堅牢なコミュニケーションを可能にするための鍵である。
現代のQAで使用される言語モデルは、いくつかの重要なタスクにおいて人間のパフォーマンスを上回っている。
本稿では,この問題を克服する手段として,人工データを用いた人為的データセットの強化について検討する。
論文 参考訳(メタデータ) (2020-10-04T15:56:44Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。