論文の概要: English Machine Reading Comprehension Datasets: A Survey
- arxiv url: http://arxiv.org/abs/2101.10421v1
- Date: Mon, 25 Jan 2021 21:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:09:21.223418
- Title: English Machine Reading Comprehension Datasets: A Survey
- Title(参考訳): english machine reading comprehension datasets: a survey (英語)
- Authors: Daria Dzendzik, Carl Vogel, Jennifer Foster
- Abstract要約: 質問文や回答形式に応じてデータセットを分類し,サイズ,語彙,データソース,生成方法,人的パフォーマンスレベル,質問語など,さまざまな領域で比較する。
分析の結果、wikipediaは最も一般的なデータソースであり、データセットにまたがる質問の理由、時期、場所が比較的不足していることが分かりました。
- 参考スコア(独自算出の注目度): 13.767812547998735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper surveys 54 English Machine Reading Comprehension datasets, with a
view to providing a convenient resource for other researchers interested in
this problem. We categorize the datasets according to their question and answer
form and compare them across various dimensions including size, vocabulary,
data source, method of creation, human performance level, and first question
word. Our analysis reveals that Wikipedia is by far the most common data source
and that there is a relative lack of why, when, and where questions across
datasets.
- Abstract(参考訳): 本稿では、54の英語機械読解データセットを調査し、この問題に関心のある他の研究者に便利なリソースを提供することを目的とする。
質問文や回答形式に応じてデータセットを分類し,サイズ,語彙,データソース,生成方法,人的パフォーマンスレベル,質問語など,さまざまな領域で比較する。
分析の結果、wikipediaは最も一般的なデータソースであり、データセットにまたがる質問の理由、時期、場所が比較的不足していることが分かりました。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Benchmarks for Pir\'a 2.0, a Reading Comprehension Dataset about the
Ocean, the Brazilian Coast, and Climate Change [0.24091079613649843]
ピロア (Pir'a) は、海洋、ブラジル沿岸、気候変動に焦点を当てた読解データセットである。
このデータセットは多用な言語リソースであり、特に専門的な科学的知識を得るための現在の機械学習モデルの能力をテストするのに有用である。
論文 参考訳(メタデータ) (2023-09-19T21:56:45Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Alloprof: a new French question-answer education dataset and its use in
an information retrieval case study [0.13750624267664155]
ケベックに本拠を置くヘルプサイトであるAlloprofから,フランスの新たな公開質問回答データセットを紹介した。
このデータセットは、29の349の質問と10人の368人の学生の様々な学年における説明を含んでいる。
関連する文書を予測するため、事前訓練されたBERTモデルを用いたアーキテクチャを微調整し、評価した。
論文 参考訳(メタデータ) (2023-02-10T20:23:27Z) - A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。
本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文 参考訳(メタデータ) (2021-12-27T12:45:06Z) - PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge
Graph [0.0]
本稿では,ペルシャ語質問応答のためのデータセットである textitPeCoQ を紹介する。
このデータセットには、ペルシャの知識グラフであるFarsBaseから抽出された1万の複雑な質問と回答が含まれている。
データセットには、マルチリレーション、マルチエンタリティ、順序性、時間的制約など、さまざまな種類の複雑さがある。
論文 参考訳(メタデータ) (2021-06-27T08:21:23Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。