Fugu-MT 論文翻訳(概要): KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource Language

論文の概要: KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource Language

arxiv url: http://arxiv.org/abs/2205.02364v1
Date: Wed, 4 May 2022 23:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-07 07:27:42.992433
Title: KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource Language
Title（参考訳）: KenSwQuAD - Swahili低リソース言語のための質問回答データセット
Authors: Barack Wanjawa (1), Lilian Wanzare (2), Florence Indede (2), Owen McOnyango (2), Lawrence Muchemi (1), Edward Ombui (3) ((1) University of Nairobi Kenya, (2) Maseno University Kenya (3) Africa Nazarene University Kenya)
Abstract要約: 本研究ではKencorpus Swahili Question AnsweringデータセットKenSwQuADを開発した。このデータセットは、機械学習アプリケーションにトレーニングと金の標準セットを必要とする自然言語処理コミュニティにとって有用である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research developed a Kencorpus Swahili Question Answering Dataset KenSwQuAD from raw data of Swahili language, which is a low resource language predominantly spoken in Eastern African and also has speakers in other parts of the world. Question Answering datasets are important for machine comprehension of natural language processing tasks such as internet search and dialog systems. However, before such machine learning systems can perform these tasks, they need training data such as the gold standard Question Answering (QA) set that is developed in this research. The research engaged annotators to formulate question answer pairs from Swahili texts that had been collected by the Kencorpus project, a Kenyan languages corpus that collected data from three Kenyan languages. The total Swahili data collection had 2,585 texts, out of which we annotated 1,445 story texts with at least 5 QA pairs each, resulting into a final dataset of 7,526 QA pairs. A quality assurance set of 12.5% of the annotated texts was subjected to re-evaluation by different annotators who confirmed that the QA pairs were all correctly annotated. A proof of concept on applying the set to machine learning on the question answering task confirmed that the dataset can be used for such practical tasks. The research therefore developed KenSwQuAD, a question-answer dataset for Swahili that is useful to the natural language processing community who need training and gold standard sets for their machine learning applications. The research also contributed to the resourcing of the Swahili language which is important for communication around the globe. Updating this set and providing similar sets for other low resource languages is an important research area that is worthy of further research.
Abstract（参考訳）: 本研究は,東アフリカを中心に話されている低資源言語であるスワヒリ語の生データから,kencorpus swahili question answering dataset kenswquadを開発した。質問応答データセットは,インターネット検索や対話システムなどの自然言語処理タスクを機械で理解するために重要である。しかし、このような機械学習システムがこれらのタスクを実行する前には、本研究で開発されたgold standard question answering(qa)セットなどのトレーニングデータが必要である。この研究は、ケニアの3つの言語からデータを収集するケニア語コーパスであるKencorpusプロジェクトによって収集されたスワヒリ語のテキストから質問応答ペアを定式化した。スワヒリのデータ収集には2,585のテキストがあり、そのうち1,445のストーリーテキストと少なくとも5つのQAペアを注釈付けし、最終的なデータセットは7,526のQAペアであった。注釈付きテキストの12.5%の品質保証セットは、QAペアがすべて正しく注釈付けされていることを確認した異なるアノテータによって再評価された。質問応答タスクの機械学習に適用する概念実証により、データセットがそのような実用的なタスクに使用できることが確認された。そこで研究は、機械学習アプリケーションにトレーニングと金の標準セットを必要とする自然言語処理コミュニティにとって有用な、Swahiliの質問応答データセットであるKenSwQuADを開発した。この研究は、世界中のコミュニケーションにとって重要なスワヒリ語のオープンソース化にも貢献した。このセットを更新し、他の低リソース言語に同様のセットを提供することは、さらなる研究に値する重要な研究分野である。

関連論文リスト

TyDi QA-WANA: A Benchmark for Information-Seeking Question Answering in Languages of West Asia and North Africa [13.107551474252379]
アジア西部とアフリカ北部の10の言語品種に28K例からなる質問応答データセットTyDi QA-WANAを提示する。データ収集プロセスは、情報検索の質問を引き出すように設計されている。
論文参考訳（メタデータ） (2025-07-23T17:20:28Z)
SwaQuAD-24: QA Benchmark Dataset in Swahili [0.0]
本稿では,Swahili Question Answering (QA)ベンチマークデータセットの作成を提案する。このデータセットは、スワヒリの言語的多様性と複雑さを捉える高品質で注釈付き質問応答ペアを提供することに重点を置いている。データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。
論文参考訳（メタデータ） (2024-10-18T08:49:24Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。 118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文参考訳（メタデータ） (2024-04-20T12:16:35Z)
EuSQuAD: Automatically Translated and Aligned SQuAD2.0 for Basque [0.4499833362998487]
この作業は、SQuAD2.0をバスク語に自動翻訳・調整する最初のイニシアチブであるEuSQuADを提示する。我々は、EuSQuADをトレーニングデータとしてサポートした広範囲な定性分析とQA実験により、EuSQuADの価値を実証する。
論文参考訳（メタデータ） (2024-04-18T13:31:57Z)
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language [1.3476084087665703]
HaVQAは、Hausa言語における視覚的質問応答タスクのための最初のマルチモーダルデータセットである。データセットは、6,022の英問合せペアを手動で翻訳することで作成され、Visual Genomeデータセットから1,555のユニークな画像に関連付けられている。
論文参考訳（メタデータ） (2023-05-28T10:55:31Z)
Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文参考訳（メタデータ） (2023-05-23T17:57:46Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。 xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-02-26T05:52:52Z)
Fantastic Questions and Where to Find Them: FairytaleQA -- An Authentic Dataset for Narrative Comprehension [136.82507046638784]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。 FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文参考訳（メタデータ） (2022-03-26T00:20:05Z)
JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension [0.0]
本稿では,日本語質問応答データセットJaQuADについて述べる。 JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。 F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。
論文参考訳（メタデータ） (2022-02-03T18:40:25Z)
QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文参考訳（メタデータ） (2022-01-31T22:19:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。