論文の概要: The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages
- arxiv url: http://arxiv.org/abs/2603.29244v2
- Date: Sun, 05 Apr 2026 22:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.441467
- Title: The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages
- Title(参考訳): Thiomi Dataset: 低リソースのアフリカ言語のための大規模マルチモーダルコーパス
- Authors: Hillary Mutisya, John Mugane, Gavin Nyamboga, Brian Chege, Maryruth Gathoni,
- Abstract要約: スワヒリ語、キクユ語、カムバ語、キムル語、ルオ語、マサイ語、キプシギス語、ソマリ語という4つの言語ファミリーにまたがる10のアフリカ諸言語にまたがる大規模なマルチモーダルコーパスを提示する。
データセットには、601,000以上の承認された文レベルのテキストアノテーションと385,000以上のオーディオ記録が含まれている。
本稿では,収集プラットフォーム,品質保証,ベースライン実験について述べるとともに,アフリカ語技術インフラへの影響について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Thiomi Dataset, a large-scale multimodal corpus spanning ten African languages across four language families: Swahili, Kikuyu, Kamba, Kimeru, Luo, Maasai, Kipsigis, Somali (East Africa); Wolof (West Africa); and Fulani (West/Central Africa). The dataset contains over 601,000 approved sentence-level text annotations and over 385,000 audio recordings, collected through a dedicated community data collection platform involving over 100 contributors. To validate the dataset's utility, we train and evaluate ASR, MT, and TTS models, establishing baselines across all languages. Our best ASR system achieves 3.24% WER on Swahili (Common Voice), reducing prior academic SOTA from 8.3% to 3.24% (5.1 percentage point absolute, 61% relative reduction), and 4.3% WER on Somali. The dataset will be published on HuggingFace. We describe the collection platform, quality assurance workflows, and baseline experiments, and discuss implications for African language technology infrastructure.
- Abstract(参考訳): スワヒリ語、キクユ語、カンバ語、キムル語、ルオ語、マサイ語、キプシギス語、ソマリ語(東アフリカ)、ウーロフ語(西アフリカ)、フラーニ語(西アフリカ)の4つの言語族にまたがる10のアフリカ諸語にまたがる大規模なマルチモーダルコーパスであるティオミデータセットを提示する。
データセットには、承認された文レベルのテキストアノテーション601,000以上と、100人以上のコントリビュータを含む専用のコミュニティデータ収集プラットフォームを通じて収集された385,000以上のオーディオ記録が含まれている。
データセットの有用性を検証するため、ASR, MT, TTSモデルをトレーニングし、評価し、すべての言語でベースラインを確立する。
我々の最高のASRシステムは、スワヒリ語で3.24% WERを達成し、以前の学術的なSOTAを8.3%から3.24%に減らし(5.1ポイント絶対、相対的な還元率61%)、ソマリ語で4.3% WERを達成した。
データセットはHuggingFaceで公開される。
本稿では,収集プラットフォーム,品質保証ワークフロー,ベースライン実験について述べるとともに,アフリカ語技術インフラへの影響について論じる。
関連論文リスト
- The NaijaVoices Dataset: Cultivating Large-Scale, High-Quality, Culturally-Rich Speech Data for African Languages [10.225163354933372]
5000人以上の話者を持つ1,800時間音声テキストデータセットであるNaijaVoicesデータセットを紹介する。
我々は,我々のユニークなデータ収集手法を概説し,その音響的多様性を分析し,微調整実験を通じてその影響を実証する。
これらの結果から,ナイジャヴォイセスがアフリカ語における多言語音声処理を進展させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-26T22:53:48Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。