論文の概要: KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language
- arxiv url: http://arxiv.org/abs/2205.02364v1
- Date: Wed, 4 May 2022 23:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 07:27:42.992433
- Title: KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language
- Title(参考訳): KenSwQuAD - Swahili低リソース言語のための質問回答データセット
- Authors: Barack Wanjawa (1), Lilian Wanzare (2), Florence Indede (2), Owen
McOnyango (2), Lawrence Muchemi (1), Edward Ombui (3) ((1) University of
Nairobi Kenya, (2) Maseno University Kenya (3) Africa Nazarene University
Kenya)
- Abstract要約: 本研究ではKencorpus Swahili Question AnsweringデータセットKenSwQuADを開発した。
このデータセットは、機械学習アプリケーションにトレーニングと金の標準セットを必要とする自然言語処理コミュニティにとって有用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research developed a Kencorpus Swahili Question Answering Dataset
KenSwQuAD from raw data of Swahili language, which is a low resource language
predominantly spoken in Eastern African and also has speakers in other parts of
the world. Question Answering datasets are important for machine comprehension
of natural language processing tasks such as internet search and dialog
systems. However, before such machine learning systems can perform these tasks,
they need training data such as the gold standard Question Answering (QA) set
that is developed in this research. The research engaged annotators to
formulate question answer pairs from Swahili texts that had been collected by
the Kencorpus project, a Kenyan languages corpus that collected data from three
Kenyan languages. The total Swahili data collection had 2,585 texts, out of
which we annotated 1,445 story texts with at least 5 QA pairs each, resulting
into a final dataset of 7,526 QA pairs. A quality assurance set of 12.5% of the
annotated texts was subjected to re-evaluation by different annotators who
confirmed that the QA pairs were all correctly annotated. A proof of concept on
applying the set to machine learning on the question answering task confirmed
that the dataset can be used for such practical tasks. The research therefore
developed KenSwQuAD, a question-answer dataset for Swahili that is useful to
the natural language processing community who need training and gold standard
sets for their machine learning applications. The research also contributed to
the resourcing of the Swahili language which is important for communication
around the globe. Updating this set and providing similar sets for other low
resource languages is an important research area that is worthy of further
research.
- Abstract(参考訳): 本研究は,東アフリカを中心に話されている低資源言語であるスワヒリ語の生データから,kencorpus swahili question answering dataset kenswquadを開発した。
質問応答データセットは,インターネット検索や対話システムなどの自然言語処理タスクを機械で理解するために重要である。
しかし、このような機械学習システムがこれらのタスクを実行する前には、本研究で開発されたgold standard question answering(qa)セットなどのトレーニングデータが必要である。
この研究は、ケニアの3つの言語からデータを収集するケニア語コーパスであるKencorpusプロジェクトによって収集されたスワヒリ語のテキストから質問応答ペアを定式化した。
スワヒリのデータ収集には2,585のテキストがあり、そのうち1,445のストーリーテキストと少なくとも5つのQAペアを注釈付けし、最終的なデータセットは7,526のQAペアであった。
注釈付きテキストの12.5%の品質保証セットは、QAペアがすべて正しく注釈付けされていることを確認した異なるアノテータによって再評価された。
質問応答タスクの機械学習に適用する概念実証により、データセットがそのような実用的なタスクに使用できることが確認された。
そこで研究は、機械学習アプリケーションにトレーニングと金の標準セットを必要とする自然言語処理コミュニティにとって有用な、Swahiliの質問応答データセットであるKenSwQuADを開発した。
この研究は、世界中のコミュニケーションにとって重要なスワヒリ語のオープンソース化にも貢献した。
このセットを更新し、他の低リソース言語に同様のセットを提供することは、さらなる研究に値する重要な研究分野である。
関連論文リスト
- SwaQuAD-24: QA Benchmark Dataset in Swahili [0.0]
本稿では,Swahili Question Answering (QA)ベンチマークデータセットの作成を提案する。
このデータセットは、スワヒリの言語的多様性と複雑さを捉える高品質で注釈付き質問応答ペアを提供することに重点を置いている。
データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。
論文 参考訳(メタデータ) (2024-10-18T08:49:24Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - EuSQuAD: Automatically Translated and Aligned SQuAD2.0 for Basque [0.4499833362998487]
この作業は、SQuAD2.0をバスク語に自動翻訳・調整する最初のイニシアチブであるEuSQuADを提示する。
我々は、EuSQuADをトレーニングデータとしてサポートした広範囲な定性分析とQA実験により、EuSQuADの価値を実証する。
論文 参考訳(メタデータ) (2024-04-18T13:31:57Z) - HaVQA: A Dataset for Visual Question Answering and Multimodal Research
in Hausa Language [1.3476084087665703]
HaVQAは、Hausa言語における視覚的質問応答タスクのための最初のマルチモーダルデータセットである。
データセットは、6,022の英問合せペアを手動で翻訳することで作成され、Visual Genomeデータセットから1,555のユニークな画像に関連付けられている。
論文 参考訳(メタデータ) (2023-05-28T10:55:31Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - Fantastic Questions and Where to Find Them: FairytaleQA -- An Authentic
Dataset for Narrative Comprehension [136.82507046638784]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。
FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文 参考訳(メタデータ) (2022-03-26T00:20:05Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。