論文の概要: KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language
- arxiv url: http://arxiv.org/abs/2205.02364v1
- Date: Wed, 4 May 2022 23:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 07:27:42.992433
- Title: KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language
- Title(参考訳): KenSwQuAD - Swahili低リソース言語のための質問回答データセット
- Authors: Barack Wanjawa (1), Lilian Wanzare (2), Florence Indede (2), Owen
McOnyango (2), Lawrence Muchemi (1), Edward Ombui (3) ((1) University of
Nairobi Kenya, (2) Maseno University Kenya (3) Africa Nazarene University
Kenya)
- Abstract要約: 本研究ではKencorpus Swahili Question AnsweringデータセットKenSwQuADを開発した。
このデータセットは、機械学習アプリケーションにトレーニングと金の標準セットを必要とする自然言語処理コミュニティにとって有用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research developed a Kencorpus Swahili Question Answering Dataset
KenSwQuAD from raw data of Swahili language, which is a low resource language
predominantly spoken in Eastern African and also has speakers in other parts of
the world. Question Answering datasets are important for machine comprehension
of natural language processing tasks such as internet search and dialog
systems. However, before such machine learning systems can perform these tasks,
they need training data such as the gold standard Question Answering (QA) set
that is developed in this research. The research engaged annotators to
formulate question answer pairs from Swahili texts that had been collected by
the Kencorpus project, a Kenyan languages corpus that collected data from three
Kenyan languages. The total Swahili data collection had 2,585 texts, out of
which we annotated 1,445 story texts with at least 5 QA pairs each, resulting
into a final dataset of 7,526 QA pairs. A quality assurance set of 12.5% of the
annotated texts was subjected to re-evaluation by different annotators who
confirmed that the QA pairs were all correctly annotated. A proof of concept on
applying the set to machine learning on the question answering task confirmed
that the dataset can be used for such practical tasks. The research therefore
developed KenSwQuAD, a question-answer dataset for Swahili that is useful to
the natural language processing community who need training and gold standard
sets for their machine learning applications. The research also contributed to
the resourcing of the Swahili language which is important for communication
around the globe. Updating this set and providing similar sets for other low
resource languages is an important research area that is worthy of further
research.
- Abstract(参考訳): 本研究は,東アフリカを中心に話されている低資源言語であるスワヒリ語の生データから,kencorpus swahili question answering dataset kenswquadを開発した。
質問応答データセットは,インターネット検索や対話システムなどの自然言語処理タスクを機械で理解するために重要である。
しかし、このような機械学習システムがこれらのタスクを実行する前には、本研究で開発されたgold standard question answering(qa)セットなどのトレーニングデータが必要である。
この研究は、ケニアの3つの言語からデータを収集するケニア語コーパスであるKencorpusプロジェクトによって収集されたスワヒリ語のテキストから質問応答ペアを定式化した。
スワヒリのデータ収集には2,585のテキストがあり、そのうち1,445のストーリーテキストと少なくとも5つのQAペアを注釈付けし、最終的なデータセットは7,526のQAペアであった。
注釈付きテキストの12.5%の品質保証セットは、QAペアがすべて正しく注釈付けされていることを確認した異なるアノテータによって再評価された。
質問応答タスクの機械学習に適用する概念実証により、データセットがそのような実用的なタスクに使用できることが確認された。
そこで研究は、機械学習アプリケーションにトレーニングと金の標準セットを必要とする自然言語処理コミュニティにとって有用な、Swahiliの質問応答データセットであるKenSwQuADを開発した。
この研究は、世界中のコミュニケーションにとって重要なスワヒリ語のオープンソース化にも貢献した。
このセットを更新し、他の低リソース言語に同様のセットを提供することは、さらなる研究に値する重要な研究分野である。
関連論文リスト
- HaVQA: A Dataset for Visual Question Answering and Multimodal Research
in Hausa Language [1.3476084087665703]
HaVQAは、Hausa言語における視覚的質問応答タスクのための最初のマルチモーダルデータセットである。
データセットは、6,022の英問合せペアを手動で翻訳することで作成され、Visual Genomeデータセットから1,555のユニークな画像に関連付けられている。
論文 参考訳(メタデータ) (2023-05-28T10:55:31Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - Kencorpus: A Kenyan Language Corpus of Swahili, Dholuo and Luhya for
Natural Language Processing Tasks [0.0]
Kencorpusプロジェクトは、テキストと音声データの収集と保存によってギャップを埋めようとしている。
ケンコーパスデータセット(Kencorpus dataset)は、ケニアで主に話されている3つの言語(スワヒリ語、ドゥルオ語、ルヒャ語)のテキストと音声コーパスである。
データセットは、モデルトレーニングや翻訳といった下流の機械学習タスクに役立ちます。
論文 参考訳(メタデータ) (2022-08-25T13:27:14Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Fantastic Questions and Where to Find Them: FairytaleQA -- An Authentic
Dataset for Narrative Comprehension [136.82507046638784]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。
FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文 参考訳(メタデータ) (2022-03-26T00:20:05Z) - JaQuAD: Japanese Question Answering Dataset for Machine Reading
Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。
JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。
F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文 参考訳(メタデータ) (2022-02-03T18:40:25Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。