Fugu-MT 論文翻訳(概要): SwaQuAD-24: QA Benchmark Dataset in Swahili

論文の概要: SwaQuAD-24: QA Benchmark Dataset in Swahili

arxiv url: http://arxiv.org/abs/2410.14289v1
Date: Fri, 18 Oct 2024 08:49:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.403433
Title: SwaQuAD-24: QA Benchmark Dataset in Swahili
Title（参考訳）: SwaQuAD-24: SwahiliにおけるQAベンチマークデータセット
Authors: Alfred Malengo Kondoro,
Abstract要約: 本稿では,Swahili Question Answering (QA)ベンチマークデータセットの作成を提案する。このデータセットは、スワヒリの言語的多様性と複雑さを捉える高品質で注釈付き質問応答ペアを提供することに重点を置いている。データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes the creation of a Swahili Question Answering (QA) benchmark dataset, aimed at addressing the underrepresentation of Swahili in natural language processing (NLP). Drawing from established benchmarks like SQuAD, GLUE, KenSwQuAD, and KLUE, the dataset will focus on providing high-quality, annotated question-answer pairs that capture the linguistic diversity and complexity of Swahili. The dataset is designed to support a variety of applications, including machine translation, information retrieval, and social services like healthcare chatbots. Ethical considerations, such as data privacy, bias mitigation, and inclusivity, are central to the dataset development. Additionally, the paper outlines future expansion plans to include domain-specific content, multimodal integration, and broader crowdsourcing efforts. The Swahili QA dataset aims to foster technological innovation in East Africa and provide an essential resource for NLP research and applications in low-resource languages.
Abstract（参考訳）: 本稿では,自然言語処理(NLP)におけるスワヒリの表現不足への対処を目的とした,スワヒリ質問回答(QA)ベンチマークデータセットの作成を提案する。 SQuAD、GLUE、KenSwQuAD、KLUEといった確立したベンチマークから得られたデータセットは、スワヒリの言語多様性と複雑さを捉える高品質で注釈付き質問応答ペアの提供に重点を置いている。このデータセットは、機械翻訳、情報検索、ヘルスケアチャットボットのようなソーシャルサービスなど、さまざまなアプリケーションをサポートするように設計されている。データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。さらに、ドメイン固有のコンテンツ、マルチモーダル統合、より広範なクラウドソーシングを含む今後の拡張計画について概説する。 Swahili QAデータセットは、東アフリカにおける技術革新の促進と、低リソース言語におけるNLPの研究と応用に不可欠なリソースの提供を目的としている。

関連論文リスト

Bridging the Data Gap: Creating a Hindi Text Summarization Dataset from the English XSUM [2.893226191913102]
本研究では、包括的なヒンディー語テキスト要約データセットを作成するための費用対効果の高い自動化フレームワークを提案する。英語 Extreme Summarization (XSUM) データセットを情報源として,高度な翻訳手法と言語適応手法を採用する。結果として得られたデータセットは、オリジナルのXSUMコーパスの複雑さを反映した多種多様なマルチテーマリソースを提供する。
論文参考訳（メタデータ） (2026-01-04T14:38:58Z)
IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages [0.4194295877935868]
IndicSQuADは9つの主要なIndic言語をカバーする包括的多言語抽出QAデータセットである。 IndicSQuADは、各言語に対する広範なトレーニング、検証、テストセットを含む。言語固有の単言語BERTモデルと多言語 MuRIL-BERT を用いたベースライン性能の評価を行った。
論文参考訳（メタデータ） (2025-05-06T16:42:54Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository [0.0]
本稿では,低リソース言語 Assamese のための NLP と NMT の推進を目的とした,集中型オープンソースデータセットリポジトリを提案する。 GitHubで利用可能なこのリポジトリは、プレトレーニングと微調整のコーパスを提供することで、感情分析、名前付きエンティティ認識、機械翻訳といったさまざまなタスクをサポートする。
論文参考訳（メタデータ） (2024-10-15T05:26:57Z)
INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文参考訳（メタデータ） (2024-07-18T13:57:16Z)
Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文参考訳（メタデータ） (2024-05-31T07:51:19Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。 118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文参考訳（メタデータ） (2024-04-20T12:16:35Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文参考訳（メタデータ） (2022-12-19T17:28:22Z)
Beyond Counting Datasets: A Survey of Multilingual Dataset Construction and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。言語に習熟したNLP研究者と集団労働者を対象に調査を行った。メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文参考訳（メタデータ） (2022-11-28T18:54:33Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource Language [0.0]
このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。 QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
論文参考訳（メタデータ） (2022-05-04T23:53:23Z)
Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。 CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文参考訳（メタデータ） (2022-01-31T18:11:21Z)
Towards More Equitable Question Answering Systems: How Much More Data Do You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文参考訳（メタデータ） (2021-05-28T21:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。