論文の概要: How much speech data is necessary for ASR in African languages? An evaluation of data scaling in Kinyarwanda and Kikuyu
- arxiv url: http://arxiv.org/abs/2510.07221v1
- Date: Wed, 08 Oct 2025 16:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.641417
- Title: How much speech data is necessary for ASR in African languages? An evaluation of data scaling in Kinyarwanda and Kikuyu
- Title(参考訳): アフリカ諸語におけるASRの音声データはどのくらい必要か? : キンヤルワンダと菊湯におけるデータスケーリングの評価
- Authors: Benjamin Akera, Evelyn Nafula, Patrick Walukagga, Gilbert Yiga, John Quinn, Ernest Mwebaze,
- Abstract要約: 低リソースアフリカ語の自動音声認識システムの開発は, 音声データに制限があるため, 依然として困難である。
OpenAIのWhisperのような大規模多言語モデルの最近の進歩は、低リソースのASR開発に有望な経路を提供する。
2つのバントゥー言語に対する包括的実験によりWhisperの性能を評価する。
- 参考スコア(独自算出の注目度): 0.5678475267829229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Automatic Speech Recognition (ASR) systems for low-resource African languages remains challenging due to limited transcribed speech data. While recent advances in large multilingual models like OpenAI's Whisper offer promising pathways for low-resource ASR development, critical questions persist regarding practical deployment requirements. This paper addresses two fundamental concerns for practitioners: determining the minimum data volumes needed for viable performance and characterizing the primary failure modes that emerge in production systems. We evaluate Whisper's performance through comprehensive experiments on two Bantu languages: systematic data scaling analysis on Kinyarwanda using training sets from 1 to 1,400 hours, and detailed error characterization on Kikuyu using 270 hours of training data. Our scaling experiments demonstrate that practical ASR performance (WER < 13\%) becomes achievable with as little as 50 hours of training data, with substantial improvements continuing through 200 hours (WER < 10\%). Complementing these volume-focused findings, our error analysis reveals that data quality issues, particularly noisy ground truth transcriptions, account for 38.6\% of high-error cases, indicating that careful data curation is as critical as data volume for robust system performance. These results provide actionable benchmarks and deployment guidance for teams developing ASR systems across similar low-resource language contexts. We release accompanying and models see https://github.com/SunbirdAI/kinyarwanda-whisper-eval
- Abstract(参考訳): 低リソースアフリカ言語のための自動音声認識(ASR)システムの開発は、音声データに制限があるため、いまだに困難である。
OpenAIのWhisperのような大規模多言語モデルの最近の進歩は、低リソースのASR開発に有望な経路を提供する一方で、実用的なデプロイメント要件に関する重要な疑問が続いている。
本稿では,実行可能性能に必要な最小データ量を決定することと,本運用システムで発生する主要な障害モードを特徴付けることの2つの基本的問題に対処する。
本研究では,Kinyarwandaにおける1~1,400時間のトレーニングセットを用いた系統的データスケーリング分析と,270時間のトレーニングデータを用いた菊湯の詳細な誤り評価と,Whisperの性能評価を行った。
スケーリング実験により,200時間 (WER < 13 %) のトレーニングデータを用いて,実用的 ASR 性能 (WER < 13 %) が達成可能となり,200時間 (WER < 10 %) で大幅な改善が得られた。
これらのボリュームに着目した分析結果から,データ品質問題,特にノイズの多い基底真理文字起こしは38.6 %の高エラーが原因であり,注意深いデータキュレーションは,堅牢なシステム性能のためのデータボリュームと同じくらい重要であることが示された。
これらの結果は、同様の低リソース言語コンテキストにわたるASRシステムの開発チームに対して、実行可能なベンチマークとデプロイメントガイダンスを提供する。
関連してリリースし、モデルはhttps://github.com/SunbirdAI/kinyarwanda-whisper-evalを参照してください。
関連論文リスト
- Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前トレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。
我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-27T12:50:55Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - VietASR: Achieving Industry-level Vietnamese ASR with 50-hour labeled data and Large-Scale Speech Pretraining [41.555790191562224]
大量のラベル付きデータとラベル付きデータの小さなセットを活用する新しいASRトレーニングパイプラインであるVietaSRを提案する。
70,000時間のラベル付きデータに対する事前トレーニングと,50時間ラベル付きデータに対する微調整により,軽量だが強力なASRモデルが得られることを示す。
私たちのコードとモデルは、低リソースのASRの研究を促進するためにオープンソース化されます。
論文 参考訳(メタデータ) (2025-05-23T14:26:11Z) - Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。