論文の概要: PQuAD: A Persian Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2202.06219v1
- Date: Sun, 13 Feb 2022 05:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 10:09:34.134658
- Title: PQuAD: A Persian Question Answering Dataset
- Title(参考訳): PQuAD: ペルシアの質問に答えるデータセット
- Authors: Kasra Darvishi, Newsha Shahbodagh, Zahra Abbasiantaeb, Saeedeh Momtazi
- Abstract要約: ペルシア語ウィキペディアの記事のクラウドソース読解データセット。
80,000の質問と回答があり、25%の質問は反対に答えられない。
最先端の事前学習言語モデルに対する実験では,74.8%のエクサクトマッチ (EM) と87.6%のF1スコアが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Persian Question Answering Dataset (PQuAD), a crowdsourced reading
comprehension dataset on Persian Wikipedia articles. It includes 80,000
questions along with their answers, with 25% of the questions being
adversarially unanswerable. We examine various properties of the dataset to
show the diversity and the level of its difficulty as an MRC benchmark. By
releasing this dataset, we aim to ease research on Persian reading
comprehension and development of Persian question answering systems. Our
experiments on different state-of-the-art pre-trained contextualized language
models show 74.8% Exact Match (EM) and 87.6% F1-score that can be used as the
baseline results for further research on Persian QA.
- Abstract(参考訳): 本稿では,ペルシア語ウィキペディア記事の読解データセットであるPQuADについて紹介する。
8万の質問と答えを含み、25%の質問は反対に答えられない。
MRCベンチマークとして,データセットの多様性と難易度を示すために,様々な特性について検討した。
このデータセットを公開することにより、ペルシア語読解の研究を容易にし、ペルシア語質問応答システムの開発を目指す。
異なる最先端の事前学習型言語モデルに対する実験では、74.8%のエクサクトマッチ(EM)と87.6%のF1スコアが、ペルシアのQAに関するさらなる研究のベースラインとして利用できる。
関連論文リスト
- Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - IslamicPCQA: A Dataset for Persian Multi-hop Complex Question Answering
in Islamic Text Resources [0.0]
本稿では,非構造化情報ソースに基づく複雑な質問に回答するためのISISPCQAデータセットを紹介する。
準備されたデータセットは、幅広いイスラムのトピックをカバーし、このテーマの中で複雑なペルシアの質問への答えを容易にすることを目的としている。
論文 参考訳(メタデータ) (2023-04-23T14:20:58Z) - JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文 参考訳(メタデータ) (2022-02-03T18:40:25Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - PerCQA: Persian Community Question Answering Dataset [2.503043323723241]
コミュニティ質問回答 (Community Question Answering, CQA) は、現実の質問に対する回答を提供するフォーラムである。
CQAの最初のペルシア語データセットであるPerCQAを提示する。
このデータセットには、最も有名なペルシアのフォーラムからクロールされた質問と回答が含まれている。
論文 参考訳(メタデータ) (2021-12-25T14:06:41Z) - A Knowledge-based Approach for Answering Complex Questions in Persian [0.0]
ペルシャ語における複雑な質問に答えるための知識に基づくアプローチを提案する。
対応可能な論理形式の集合を構築することで,多制約および多ホップ問題を扱う。
質問に対する答えは、知識グラフから抽出された論理形式への答えから作られる。
論文 参考訳(メタデータ) (2021-07-05T14:01:43Z) - PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge
Graph [0.0]
本稿では,ペルシャ語質問応答のためのデータセットである textitPeCoQ を紹介する。
このデータセットには、ペルシャの知識グラフであるFarsBaseから抽出された1万の複雑な質問と回答が含まれている。
データセットには、マルチリレーション、マルチエンタリティ、順序性、時間的制約など、さまざまな種類の複雑さがある。
論文 参考訳(メタデータ) (2021-06-27T08:21:23Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。