論文の概要: SwaQuAD-24: QA Benchmark Dataset in Swahili
- arxiv url: http://arxiv.org/abs/2410.14289v1
- Date: Fri, 18 Oct 2024 08:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:02.915214
- Title: SwaQuAD-24: QA Benchmark Dataset in Swahili
- Title(参考訳): SwaQuAD-24: SwahiliにおけるQAベンチマークデータセット
- Authors: Alfred Malengo Kondoro,
- Abstract要約: 本稿では,Swahili Question Answering (QA)ベンチマークデータセットの作成を提案する。
このデータセットは、スワヒリの言語的多様性と複雑さを捉える高品質で注釈付き質問応答ペアを提供することに重点を置いている。
データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper proposes the creation of a Swahili Question Answering (QA) benchmark dataset, aimed at addressing the underrepresentation of Swahili in natural language processing (NLP). Drawing from established benchmarks like SQuAD, GLUE, KenSwQuAD, and KLUE, the dataset will focus on providing high-quality, annotated question-answer pairs that capture the linguistic diversity and complexity of Swahili. The dataset is designed to support a variety of applications, including machine translation, information retrieval, and social services like healthcare chatbots. Ethical considerations, such as data privacy, bias mitigation, and inclusivity, are central to the dataset development. Additionally, the paper outlines future expansion plans to include domain-specific content, multimodal integration, and broader crowdsourcing efforts. The Swahili QA dataset aims to foster technological innovation in East Africa and provide an essential resource for NLP research and applications in low-resource languages.
- Abstract(参考訳): 本稿では,自然言語処理(NLP)におけるスワヒリの表現不足への対処を目的とした,スワヒリ質問回答(QA)ベンチマークデータセットの作成を提案する。
SQuAD、GLUE、KenSwQuAD、KLUEといった確立したベンチマークから得られたデータセットは、スワヒリの言語多様性と複雑さを捉える高品質で注釈付き質問応答ペアの提供に重点を置いている。
このデータセットは、機械翻訳、情報検索、ヘルスケアチャットボットのようなソーシャルサービスなど、さまざまなアプリケーションをサポートするように設計されている。
データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。
さらに、ドメイン固有のコンテンツ、マルチモーダル統合、より広範なクラウドソーシングを含む今後の拡張計画について概説する。
Swahili QAデータセットは、東アフリカにおける技術革新の促進と、低リソース言語におけるNLPの研究と応用に不可欠なリソースの提供を目的としている。
関連論文リスト
- Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository [0.0]
本稿では,低リソース言語 Assamese のための NLP と NMT の推進を目的とした,集中型オープンソースデータセットリポジトリを提案する。
GitHubで利用可能なこのリポジトリは、プレトレーニングと微調整のコーパスを提供することで、感情分析、名前付きエンティティ認識、機械翻訳といったさまざまなタスクをサポートする。
論文 参考訳(メタデータ) (2024-10-15T05:26:57Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language [0.0]
このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。
QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。
この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
論文 参考訳(メタデータ) (2022-05-04T23:53:23Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。