論文の概要: QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering
and Reading Comprehension
- arxiv url: http://arxiv.org/abs/2107.12708v1
- Date: Tue, 27 Jul 2021 10:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:57:17.469381
- Title: QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering
and Reading Comprehension
- Title(参考訳): qaデータセットの爆発:質問応答と読み理解のためのnlpリソースの分類
- Authors: Anna Rogers, Matt Gardner, and Isabelle Augenstein
- Abstract要約: この調査は、これまでで最大の調査である。
我々は、現在のリソースの様々なフォーマットとドメインの概要を述べ、将来の作業における現在のラグナを強調します。
また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
- 参考スコア(独自算出の注目度): 41.6087902739702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alongside huge volumes of research on deep learning models in NLP in the
recent years, there has been also much work on benchmark datasets needed to
track modeling progress. Question answering and reading comprehension have been
particularly prolific in this regard, with over 80 new datasets appearing in
the past two years. This study is the largest survey of the field to date. We
provide an overview of the various formats and domains of the current
resources, highlighting the current lacunae for future work. We further discuss
the current classifications of ``reasoning types" in question answering and
propose a new taxonomy. We also discuss the implications of over-focusing on
English, and survey the current monolingual resources for other languages and
multilingual resources. The study is aimed at both practitioners looking for
pointers to the wealth of existing data, and at researchers working on new
resources.
- Abstract(参考訳): 近年のNLPにおけるディープラーニングモデルに関する膨大な研究に加えて、モデリングの進捗を追跡するために必要なベンチマークデータセットも数多く研究されている。
質問への回答と読み解きはこの点において特に多作で、過去2年間に80以上の新しいデータセットが登場した。
この研究は、これまでで最大の調査である。
我々は、現在のリソースの様々なフォーマットとドメインの概要を提供し、将来の作業のための現在のlacunaeを強調する。
さらに,「推論型」の現在の分類について考察し,新たな分類法を提案する。
また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
この研究は、既存のデータの富へのポインタを探す実践者と、新しいリソースに取り組んでいる研究者の両方を対象としている。
関連論文リスト
- Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - A Study on Scaling Up Multilingual News Framing Analysis [23.80807884935475]
本研究では,クラウドソーシングによるデータセット生成の可能性を検討する。
まず、英語ニュース以外のフレーミング分析を多言語文脈に拡張する。
また、ベンガルとポルトガルの移民と同性結婚に関する新しい基準も提示する。
論文 参考訳(メタデータ) (2024-04-01T21:02:18Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - A Transfer Learning Pipeline for Educational Resource Discovery with
Application in Leading Paragraph Generation [71.92338855383238]
本稿では,新しいドメインに対するWebリソース発見を自動化するパイプラインを提案する。
パイプラインは2つの類似しているが新規なターゲットドメインで評価すると、F1スコアは0.94と0.82となる。
本研究は,サーベイジェネレーションのための各種Webリソースを考察した最初の研究である。
論文 参考訳(メタデータ) (2022-01-07T03:35:40Z) - Studying Taxonomy Enrichment on Diachronic WordNet Versions [70.27072729280528]
本稿では,資源の乏しい環境での分類拡張の可能性について検討し,多数の言語に適用可能な手法を提案する。
我々は、分類の豊かさを訓練し評価するための新しい英語とロシア語のデータセットを作成し、他の言語のためのそのようなデータセットを作成する技術を記述する。
論文 参考訳(メタデータ) (2020-11-23T16:49:37Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。