論文の概要: JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2202.01764v1
- Date: Thu, 3 Feb 2022 18:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:44:56.125063
- Title: JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension
- Title(参考訳): JaQuAD: 機械読解のための日本語質問回答データセット
- Authors: ByungHoon So, Kyuhong Byun, Kyungwon Kang, Seongjin Cho
- Abstract要約: 本稿では,日本語質問応答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Question Answering (QA) is a task in which a machine understands a given
document and a question to find an answer. Despite impressive progress in the
NLP area, QA is still a challenging problem, especially for non-English
languages due to the lack of annotated datasets. In this paper, we present the
Japanese Question Answering Dataset, JaQuAD, which is annotated by humans.
JaQuAD consists of 39,696 extractive question-answer pairs on Japanese
Wikipedia articles. We finetuned a baseline model which achieves 78.92% for F1
score and 63.38% for EM on test set. The dataset and our experiments are
available at https://github.com/SkelterLabsInc/JaQuAD.
- Abstract(参考訳): 質問回答(QA: Question Answering)は、機械が与えられた文書と質問を理解して答えを見つけるタスクである。
NLP領域の著しい進歩にもかかわらず、特に注釈付きデータセットがないため、QAは英語以外の言語では依然として難しい問題である。
本稿では,人間によって注釈付けされた日本語質問回答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
データセットと実験はhttps://github.com/SkelterLabsInc/JaQuAD.comで公開されています。
関連論文リスト
- Multilingual Non-Factoid Question Answering with Silver Answers [36.31301773167754]
この研究は、非ファクトイデアルな質問を持つ多言語QuADであるMuNfQuADを提示する。
BBCニュース記事の疑わしいサブヘッドを質問として、それに対応する段落を銀の回答として利用する。
データセットは38言語にまたがる370万以上のQAペアで構成され、いくつかの低リソース言語を含んでいる。
論文 参考訳(メタデータ) (2024-08-20T07:37:06Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - KazQAD: Kazakh Open-Domain Question Answering Dataset [2.8158674707210136]
KazQADは、カザフスタンのオープンドメイン質問応答データセットである。
これは、理解と完全なODQA設定を読むのに使うことができる。
6000件弱の独特な質問があり、短い回答が抽出されている。
論文 参考訳(メタデータ) (2024-04-06T03:40:36Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - AmQA: Amharic Question Answering Dataset [8.509075718695492]
質問回答 (QA) は、文脈文書が与えられた自然言語テキストから簡潔な回答や回答リストを返します。
Amharic QAデータセットは公開されていない。
われわれは2628件のウィキペディア記事をクラウドソーシングした。
論文 参考訳(メタデータ) (2023-03-06T17:06:50Z) - KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language [0.0]
このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。
QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。
この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
論文 参考訳(メタデータ) (2022-05-04T23:53:23Z) - PQuAD: A Persian Question Answering Dataset [0.0]
ペルシア語ウィキペディアの記事のクラウドソース読解データセット。
80,000の質問と回答があり、25%の質問は反対に答えられない。
最先端の事前学習言語モデルに対する実験では,74.8%のエクサクトマッチ (EM) と87.6%のF1スコアが得られた。
論文 参考訳(メタデータ) (2022-02-13T05:42:55Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。