論文の概要: AmQA: Amharic Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2303.03290v2
- Date: Thu, 16 Nov 2023 12:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 20:31:41.790826
- Title: AmQA: Amharic Question Answering Dataset
- Title(参考訳): AmQA: Amharic Question Answering Dataset
- Authors: Tilahun Abedissa, Ricardo Usbeck, Yaregal Assabie
- Abstract要約: 質問回答 (QA) は、文脈文書が与えられた自然言語テキストから簡潔な回答や回答リストを返します。
Amharic QAデータセットは公開されていない。
われわれは2628件のウィキペディア記事をクラウドソーシングした。
- 参考スコア(独自算出の注目度): 8.509075718695492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question Answering (QA) returns concise answers or answer lists from natural
language text given a context document. Many resources go into curating QA
datasets to advance robust models' development. There is a surge of QA datasets
for languages like English, however, this is not true for Amharic. Amharic, the
official language of Ethiopia, is the second most spoken Semitic language in
the world. There is no published or publicly available Amharic QA dataset.
Hence, to foster the research in Amharic QA, we present the first Amharic QA
(AmQA) dataset. We crowdsourced 2628 question-answer pairs over 378 Wikipedia
articles. Additionally, we run an XLMR Large-based baseline model to spark
open-domain QA research interest. The best-performing baseline achieves an
F-score of 69.58 and 71.74 in reader-retriever QA and reading comprehension
settings respectively.
- Abstract(参考訳): 質問応答(qa)は、コンテキストドキュメントが与えられた自然言語テキストから簡潔な回答や回答リストを返す。
多くのリソースは、堅牢なモデルの開発を進めるために、QAデータセットをキュレートする。
英語のような言語向けのQAデータセットが急増しているが、これはAmharicには当てはまらない。
エチオピアの公用語であるアムハラ語は、世界で2番目に話されているセム語である。
Amharic QAデータセットは公開されていない。
したがって、Amharic QAの研究を促進するために、最初のAmharic QA(AmQA)データセットを提示する。
われわれは2628件のウィキペディア記事をクラウドソーシングした。
さらに、オープンドメインQA研究の関心を喚起するために、XLMR Largeベースのベースラインモデルを実行します。
ベストパフォーマンスのベースラインは、読者検索QAおよび読解設定において、それぞれ69.58と71.74のFスコアを達成する。
関連論文リスト
- Multilingual Non-Factoid Question Answering with Silver Answers [36.31301773167754]
この研究は、非ファクトイデアルな質問を持つ多言語QuADであるMuNfQuADを提示する。
BBCニュース記事の疑わしいサブヘッドを質問として、それに対応する段落を銀の回答として利用する。
データセットは38言語にまたがる370万以上のQAペアで構成され、いくつかの低リソース言語を含んでいる。
論文 参考訳(メタデータ) (2024-08-20T07:37:06Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - UQA: Corpus for Urdu Question Answering [3.979019316355144]
本稿では,ウルドゥー語における質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
論文 参考訳(メタデータ) (2024-05-02T16:44:31Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Building Efficient and Effective OpenQA Systems for Low-Resource Languages [17.64851283209797]
低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は、機械翻訳されたラベル付きデータセットと関連する非構造化知識ソースを用いた、弱い監視である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案する。
論文 参考訳(メタデータ) (2024-01-07T22:11:36Z) - Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - IfQA: A Dataset for Open-domain Question Answering under Counterfactual
Presuppositions [54.23087908182134]
本稿では,QA(FifQA)と呼ばれる,最初の大規模対実的オープンドメイン質問応答(QA)ベンチマークを紹介する。
IfQAデータセットには3,800以上の質問が含まれている。
IfQAベンチマークによって引き起こされるユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。
論文 参考訳(メタデータ) (2023-05-23T12:43:19Z) - JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文 参考訳(メタデータ) (2022-02-03T18:40:25Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - PerCQA: Persian Community Question Answering Dataset [2.503043323723241]
コミュニティ質問回答 (Community Question Answering, CQA) は、現実の質問に対する回答を提供するフォーラムである。
CQAの最初のペルシア語データセットであるPerCQAを提示する。
このデータセットには、最も有名なペルシアのフォーラムからクロールされた質問と回答が含まれている。
論文 参考訳(メタデータ) (2021-12-25T14:06:41Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。