Fugu-MT 論文翻訳(概要): The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages

論文の概要: The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages

arxiv url: http://arxiv.org/abs/2603.29244v2
Date: Sun, 05 Apr 2026 22:04:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:18.441467
Title: The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages
Title（参考訳）: Thiomi Dataset: 低リソースのアフリカ言語のための大規模マルチモーダルコーパス
Authors: Hillary Mutisya, John Mugane, Gavin Nyamboga, Brian Chege, Maryruth Gathoni,
Abstract要約: スワヒリ語、キクユ語、カムバ語、キムル語、ルオ語、マサイ語、キプシギス語、ソマリ語という4つの言語ファミリーにまたがる10のアフリカ諸言語にまたがる大規模なマルチモーダルコーパスを提示する。データセットには、601,000以上の承認された文レベルのテキストアノテーションと385,000以上のオーディオ記録が含まれている。本稿では,収集プラットフォーム,品質保証,ベースライン実験について述べるとともに,アフリカ語技術インフラへの影響について論じる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the Thiomi Dataset, a large-scale multimodal corpus spanning ten African languages across four language families: Swahili, Kikuyu, Kamba, Kimeru, Luo, Maasai, Kipsigis, Somali (East Africa); Wolof (West Africa); and Fulani (West/Central Africa). The dataset contains over 601,000 approved sentence-level text annotations and over 385,000 audio recordings, collected through a dedicated community data collection platform involving over 100 contributors. To validate the dataset's utility, we train and evaluate ASR, MT, and TTS models, establishing baselines across all languages. Our best ASR system achieves 3.24% WER on Swahili (Common Voice), reducing prior academic SOTA from 8.3% to 3.24% (5.1 percentage point absolute, 61% relative reduction), and 4.3% WER on Somali. The dataset will be published on HuggingFace. We describe the collection platform, quality assurance workflows, and baseline experiments, and discuss implications for African language technology infrastructure.
Abstract（参考訳）: スワヒリ語、キクユ語、カンバ語、キムル語、ルオ語、マサイ語、キプシギス語、ソマリ語(東アフリカ)、ウーロフ語(西アフリカ)、フラーニ語(西アフリカ)の4つの言語族にまたがる10のアフリカ諸語にまたがる大規模なマルチモーダルコーパスであるティオミデータセットを提示する。データセットには、承認された文レベルのテキストアノテーション601,000以上と、100人以上のコントリビュータを含む専用のコミュニティデータ収集プラットフォームを通じて収集された385,000以上のオーディオ記録が含まれている。データセットの有用性を検証するため、ASR, MT, TTSモデルをトレーニングし、評価し、すべての言語でベースラインを確立する。我々の最高のASRシステムは、スワヒリ語で3.24% WERを達成し、以前の学術的なSOTAを8.3%から3.24%に減らし(5.1ポイント絶対、相対的な還元率61%)、ソマリ語で4.3% WERを達成した。データセットはHuggingFaceで公開される。本稿では,収集プラットフォーム,品質保証ワークフロー,ベースライン実験について述べるとともに,アフリカ語技術インフラへの影響について論じる。

論文の概要: The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages

関連論文リスト