論文の概要: A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers
- arxiv url: http://arxiv.org/abs/2105.03011v1
- Date: Fri, 7 May 2021 00:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 22:50:26.458450
- Title: A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers
- Title(参考訳): 研究論文における情報探索質問と回答のデータセット
- Authors: Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, Matt
Gardner
- Abstract要約: 1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
- 参考スコア(独自算出の注目度): 66.11048565324468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Readers of academic research papers often read with the goal of answering
specific questions. Question Answering systems that can answer those questions
can make consumption of the content much more efficient. However, building such
tools requires data that reflect the difficulty of the task arising from
complex reasoning about claims made in multiple parts of a paper. In contrast,
existing information-seeking question answering datasets usually contain
questions about generic factoid-type information. We therefore present QASPER,
a dataset of 5,049 questions over 1,585 Natural Language Processing papers.
Each question is written by an NLP practitioner who read only the title and
abstract of the corresponding paper, and the question seeks information present
in the full text. The questions are then answered by a separate set of NLP
practitioners who also provide supporting evidence to answers. We find that
existing models that do well on other QA tasks do not perform well on answering
these questions, underperforming humans by at least 27 F1 points when answering
them from entire papers, motivating further research in document-grounded,
information-seeking QA, which our dataset is designed to facilitate.
- Abstract(参考訳): 学術論文の読者はしばしば特定の質問に答えることを目的として読む。
これらの質問に答えることのできる質問回答システムは、コンテンツの消費をより効率的にする。
しかし、そのようなツールを構築するには、論文の複数の部分におけるクレームに関する複雑な推論から生じるタスクの難しさを反映したデータが必要である。
対照的に、既存の情報探索型質問応答データセットは通常、一般的なファクトイド型情報に関する質問を含む。
そこで我々は,1,585件の自然言語処理論文に対する5,049件の質問データセットであるQASPERを提示する。
各質問は、対応する論文のタイトルと要約のみを読み取るNLP実践者によって書かれ、質問は全文に存在する情報を求める。
質問は別個のNLP実践者によって回答され、回答を支持する証拠も提供される。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答するときに少なくとも27のF1ポイントを人間に過小評価し、私たちのデータセットが容易に行えるように設計されている文書ベース情報検索QAのさらなる研究を動機付けている。
関連論文リスト
- Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - PCoQA: Persian Conversational Question Answering Dataset [12.07607688189035]
PCoQAデータセットは、9,026のコンテキスト駆動質問を含む情報検索ダイアログを含むリソースである。
PCoQAは、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
論文 参考訳(メタデータ) (2023-12-07T15:29:34Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Discourse Comprehension: A Question Answering Framework to Represent
Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。
本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。
得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2021-11-01T04:50:26Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - Challenges in Information-Seeking QA: Unanswerable Questions and
Paragraph Retrieval [46.3246135936476]
情報検索クエリの応答がより難しい理由と,その原因を解析する。
制御実験の結果,2つのヘッドルーム – 段落選択と応答可能性予測 – が示唆された。
私たちは6つの言語で800の未解決例を手動で注釈付けします。
論文 参考訳(メタデータ) (2020-10-22T17:48:17Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。