論文の概要: The NaijaVoices Dataset: Cultivating Large-Scale, High-Quality, Culturally-Rich Speech Data for African Languages
- arxiv url: http://arxiv.org/abs/2505.20564v2
- Date: Fri, 30 May 2025 20:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.007188
- Title: The NaijaVoices Dataset: Cultivating Large-Scale, High-Quality, Culturally-Rich Speech Data for African Languages
- Title(参考訳): NaijaVoicesデータセット:アフリカ言語のための大規模、高品質、文化的にリッチな音声データを培養する
- Authors: Chris Emezue, NaijaVoices Community, Busayo Awobade, Abraham Owodunni, Handel Emezue, Gloria Monica Tobechukwu Emezue, Nefertiti Nneoma Emezue, Sewade Ogun, Bunmi Akinremi, David Ifeoluwa Adelani, Chris Pal,
- Abstract要約: 5000人以上の話者を持つ1,800時間音声テキストデータセットであるNaijaVoicesデータセットを紹介する。
我々は,我々のユニークなデータ収集手法を概説し,その音響的多様性を分析し,微調整実験を通じてその影響を実証する。
これらの結果から,ナイジャヴォイセスがアフリカ語における多言語音声処理を進展させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 10.225163354933372
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of high-performing, robust, and reliable speech technologies depends on large, high-quality datasets. However, African languages -- including our focus, Igbo, Hausa, and Yoruba -- remain under-represented due to insufficient data. Popular voice-enabled technologies do not support any of the 2000+ African languages, limiting accessibility for circa one billion people. While previous dataset efforts exist for the target languages, they lack the scale and diversity needed for robust speech models. To bridge this gap, we introduce the NaijaVoices dataset, a 1,800-hour speech-text dataset with 5,000+ speakers. We outline our unique data collection approach, analyze its acoustic diversity, and demonstrate its impact through finetuning experiments on automatic speech recognition, averagely achieving 75.86% (Whisper), 52.06% (MMS), and 42.33% (XLSR) WER improvements. These results highlight NaijaVoices' potential to advance multilingual speech processing for African languages.
- Abstract(参考訳): 高性能で堅牢で信頼性の高い音声技術の開発は、大規模で高品質なデータセットに依存している。
しかし、我々の焦点、Igbo、Hausa、Yorubaを含むアフリカの言語は、不十分なデータのために表現が不足している。
一般的な音声対応技術は2000以上のアフリカの言語をサポートしていない。
従来のデータセットの取り組みは対象言語に対して存在するが、堅牢な音声モデルに必要なスケールと多様性は欠如している。
このギャップを埋めるために、5000人以上の話者を持つ1,800時間の音声テキストデータセットであるNaijaVoicesデータセットを紹介します。
我々は、我々のユニークなデータ収集アプローチの概要を概説し、その音響多様性を分析し、自動音声認識に関する微調整実験により、平均75.86%(ワイパー)、52.06%(MMS)、42.33%(XLSR)のWER改善を実現した。
これらの結果から,ナイジャヴォイセスがアフリカ語における多言語音声処理を進展させる可能性が示唆された。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Using Radio Archives for Low-Resource Speech Recognition: Towards an
Intelligent Virtual Assistant for Illiterate Users [3.3946853660795884]
多くの国では、低リソース言語のみを話す傾向があります。
ノイズの多いラジオ放送アーカイブにおける教師なし音声表現学習の有効性を検討する。
我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。
論文 参考訳(メタデータ) (2021-04-27T10:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。