論文の概要: AmQA: Amharic Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2303.03290v1
- Date: Mon, 6 Mar 2023 17:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:20:09.494913
- Title: AmQA: Amharic Question Answering Dataset
- Title(参考訳): AmQA: Amharic Question Answering Dataset
- Authors: Tilahun Abedissa, Ricardo Usbeck, Yaregal Assabie
- Abstract要約: 質問回答 (QA) は、文脈文書が与えられた自然言語テキストから簡潔な回答や回答リストを返します。
Amharic QAデータセットは公開されていない。
われわれは2628件のウィキペディア記事をクラウドソーシングした。
- 参考スコア(独自算出の注目度): 1.7728483430809858
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Question Answering (QA) returns concise answers or answer lists from natural
language text given a context document. Many resources go into curating QA
datasets to advance robust models' development. There is a surge of QA datasets
for languages like English, however, this is not true for Amharic. Amharic, the
official language of Ethiopia, is the second most spoken Semitic language in
the world. There is no published or publicly available Amharic QA dataset.
Hence, to foster the research in Amharic QA, we present the first Amharic QA
(AmQA) dataset. We crowdsourced 2628 question-answer pairs over 378 Wikipedia
articles. Additionally, we run an XLMR Large-based baseline model to spark
open-domain QA research interest. The best-performing baseline achieves an
F-score of 69.58 and 71.74 in reader-retriever QA and reading comprehension
settings respectively.
- Abstract(参考訳): 質問応答(qa)は、コンテキストドキュメントが与えられた自然言語テキストから簡潔な回答や回答リストを返す。
多くのリソースは、堅牢なモデルの開発を進めるために、QAデータセットをキュレートする。
英語のような言語向けのQAデータセットが急増しているが、これはAmharicには当てはまらない。
エチオピアの公用語であるアムハラ語は、世界で2番目に話されているセム語である。
Amharic QAデータセットは公開されていない。
したがって、Amharic QAの研究を促進するために、最初のAmharic QA(AmQA)データセットを提示する。
われわれは2628件のウィキペディア記事をクラウドソーシングした。
さらに、オープンドメインQA研究の関心を喚起するために、XLMR Largeベースのベースラインモデルを実行します。
ベストパフォーマンスのベースラインは、読者検索QAおよび読解設定において、それぞれ69.58と71.74のFスコアを達成する。
関連論文リスト
- Building Efficient and Effective OpenQA Systems for Low-Resource
Languages [19.46626885769932]
低コストで効率的な OpenQA システムを低リソース言語向けに開発できることを示す。
主な要素は,(1) 機械翻訳ラベル付きデータセットを用いた弱監督,(2) 対象言語における非構造的知識源である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案し,トルコ語にColBERT-QAを適用してオープンQAシステムを構築した。
論文 参考訳(メタデータ) (2024-01-07T22:11:36Z) - Fully Authentic Visual Question Answering Dataset from Online
Communities [76.34788403743514]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
データセットと、それが他の8つのVQAデータセットとどのように関連しているかを特徴付けます。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - IfQA: A Dataset for Open-domain Question Answering under Counterfactual
Presuppositions [54.23087908182134]
本稿では,QA(FifQA)と呼ばれる,最初の大規模対実的オープンドメイン質問応答(QA)ベンチマークを紹介する。
IfQAデータセットには3,800以上の質問が含まれている。
IfQAベンチマークによって引き起こされるユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。
論文 参考訳(メタデータ) (2023-05-23T12:43:19Z) - AfriQA: Cross-lingual Open-Retrieval Question Answering for African
Languages [18.689806554953236]
XOR QAシステムは、母国語の人々に仕えながら、他言語からの回答内容を検索する。
AfriQAはアフリカ言語に焦点を当てた最初の言語間QAデータセットです。
AfriQAには10言語にわたる12,000以上のXOR QAサンプルが含まれている。
論文 参考訳(メタデータ) (2023-05-11T15:34:53Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language [0.0]
このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。
QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。
この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
論文 参考訳(メタデータ) (2022-05-04T23:53:23Z) - JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文 参考訳(メタデータ) (2022-02-03T18:40:25Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - PerCQA: Persian Community Question Answering Dataset [2.503043323723241]
コミュニティ質問回答 (Community Question Answering, CQA) は、現実の質問に対する回答を提供するフォーラムである。
CQAの最初のペルシア語データセットであるPerCQAを提示する。
このデータセットには、最も有名なペルシアのフォーラムからクロールされた質問と回答が含まれている。
論文 参考訳(メタデータ) (2021-12-25T14:06:41Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。