論文の概要: KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language
- arxiv url: http://arxiv.org/abs/2205.02364v3
- Date: Sun, 9 Jul 2023 14:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:35:32.504082
- Title: KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language
- Title(参考訳): KenSwQuAD - Swahili低リソース言語のための質問回答データセット
- Authors: Barack W. Wanjawa (1), Lilian D.A. Wanzare (2), Florence Indede (2),
Owen McOnyango (2), Lawrence Muchemi (1), Edward Ombui (3) ((1) University of
Nairobi Kenya, (2) Maseno University Kenya (3) Africa Nazarene University
Kenya)
- Abstract要約: このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。
QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。
この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The need for Question Answering datasets in low resource languages is the
motivation of this research, leading to the development of Kencorpus Swahili
Question Answering Dataset, KenSwQuAD. This dataset is annotated from raw story
texts of Swahili low resource language, which is a predominantly spoken in
Eastern African and in other parts of the world. Question Answering (QA)
datasets are important for machine comprehension of natural language for tasks
such as internet search and dialog systems. Machine learning systems need
training data such as the gold standard Question Answering set developed in
this research. The research engaged annotators to formulate QA pairs from
Swahili texts collected by the Kencorpus project, a Kenyan languages corpus.
The project annotated 1,445 texts from the total 2,585 texts with at least 5 QA
pairs each, resulting into a final dataset of 7,526 QA pairs. A quality
assurance set of 12.5% of the annotated texts confirmed that the QA pairs were
all correctly annotated. A proof of concept on applying the set to the QA task
confirmed that the dataset can be usable for such tasks. KenSwQuAD has also
contributed to resourcing of the Swahili language.
- Abstract(参考訳): 低リソース言語における質問回答データセットの必要性はこの研究の動機であり、Kencorpus Swahili Question Answering Dataset, KenSwQuADの開発につながっている。
このデータセットは、東アフリカや世界の他の地域で主に話されているスワヒリ低資源言語の生の物語テキストから注釈付けされている。
質問応答(QA)データセットは、インターネット検索やダイアログシステムなどのタスクに対する自然言語の機械的理解において重要である。
機械学習システムには,本研究で開発されたゴールド標準質問回答セットなどのトレーニングデータが必要である。
この研究は、ケニア語コーパスであるKencorpusプロジェクトによって収集されたスワヒリ語のテキストからQAペアを定式化するためにアノテータを雇った。
このプロジェクトは、少なくとも5つのQAペアを持つ合計2,585のテキストから1,445の注釈を付け、最終的なデータセットは7,526のQAペアになった。
注釈付きテキストの12.5%の品質保証セットは、QAペアがすべて正しく注釈付けされていることを確認した。
データセットをQAタスクに適用する概念実証では、データセットがそのようなタスクに使用できることを確認した。
KenSwQuADはスワヒリ語の再配布にも貢献している。
関連論文リスト
- SwaQuAD-24: QA Benchmark Dataset in Swahili [0.0]
本稿では,Swahili Question Answering (QA)ベンチマークデータセットの作成を提案する。
このデータセットは、スワヒリの言語的多様性と複雑さを捉える高品質で注釈付き質問応答ペアを提供することに重点を置いている。
データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。
論文 参考訳(メタデータ) (2024-10-18T08:49:24Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - EuSQuAD: Automatically Translated and Aligned SQuAD2.0 for Basque [0.4499833362998487]
この作業は、SQuAD2.0をバスク語に自動翻訳・調整する最初のイニシアチブであるEuSQuADを提示する。
我々は、EuSQuADをトレーニングデータとしてサポートした広範囲な定性分析とQA実験により、EuSQuADの価値を実証する。
論文 参考訳(メタデータ) (2024-04-18T13:31:57Z) - HaVQA: A Dataset for Visual Question Answering and Multimodal Research
in Hausa Language [1.3476084087665703]
HaVQAは、Hausa言語における視覚的質問応答タスクのための最初のマルチモーダルデータセットである。
データセットは、6,022の英問合せペアを手動で翻訳することで作成され、Visual Genomeデータセットから1,555のユニークな画像に関連付けられている。
論文 参考訳(メタデータ) (2023-05-28T10:55:31Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - Fantastic Questions and Where to Find Them: FairytaleQA -- An Authentic
Dataset for Narrative Comprehension [136.82507046638784]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。
FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文 参考訳(メタデータ) (2022-03-26T00:20:05Z) - JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文 参考訳(メタデータ) (2022-02-03T18:40:25Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。