論文の概要: Benchmarking Automatic Speech Recognition Models for African Languages
- arxiv url: http://arxiv.org/abs/2512.10968v1
- Date: Sun, 30 Nov 2025 10:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.669681
- Title: Benchmarking Automatic Speech Recognition Models for African Languages
- Title(参考訳): アフリカ語の自動音声認識モデルのベンチマーク
- Authors: Alvin Nahabwe, Sulaiman Kagumire, Denis Musinguzi, Bruno Beijuka, Jonah Mubuuke Kyagaba, Peter Nabende, Andrew Katumba, Joyce Nakatumba-Nabende,
- Abstract要約: 13のアフリカ言語で4つの最先端のASRモデルをベンチマークする。
異なる条件下でモデルが異なる振る舞いをする理由について、新たな洞察を提供する。
本研究は、表現不足言語のためのASRシステムの設計に関する実践的および洞察を提供する。
- 参考スコア(独自算出の注目度): 0.08662702218563621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) for African languages remains constrained by limited labeled data and the lack of systematic guidance on model selection, data scaling, and decoding strategies. Large pre-trained systems such as Whisper, XLS-R, MMS, and W2v-BERT have expanded access to ASR technology, but their comparative behavior in African low-resource contexts has not been studied in a unified and systematic way. In this work, we benchmark four state-of-the-art ASR models across 13 African languages, fine-tuning them on progressively larger subsets of transcribed data ranging from 1 to 400 hours. Beyond reporting error rates, we provide new insights into why models behave differently under varying conditions. We show that MMS and W2v-BERT are more data efficient in very low-resource regimes, XLS-R scales more effectively as additional data becomes available, and Whisper demonstrates advantages in mid-resource conditions. We also analyze where external language model decoding yields improvements and identify cases where it plateaus or introduces additional errors, depending on the alignment between acoustic and text resources. By highlighting the interaction between pre-training coverage, model architecture, dataset domain, and resource availability, this study offers practical and insights into the design of ASR systems for underrepresented languages.
- Abstract(参考訳): アフリカ言語の自動音声認識(ASR)は、限定ラベル付きデータと、モデル選択、データスケーリング、デコード戦略に関する体系的なガイダンスの欠如によって、依然として制限されている。
Whisper、XLS-R、MSM、W2v-BERTといった大規模な事前学習システムは、ASR技術へのアクセスを拡大しているが、アフリカの低リソース環境での比較行動は、統一的で体系的な方法で研究されていない。
本研究では,13のアフリカ言語を対象とした4つの最先端のASRモデルをベンチマークし,1時間から400時間に及ぶ書き起こしデータのより大規模なサブセットを微調整する。
エラー率の報告以外にも、モデルがさまざまな条件下で異なる振る舞いをする理由に関する新たな洞察を提供する。
我々は、MMSとW2v-BERTが、非常に低リソースなシステムではよりデータ効率が良く、XLS-Rは、追加データが利用可能になるとより効率的にスケールできることを示し、Whisperは、中リソース環境での利点を示している。
また、音声とテキストのリソースの整合性にもよるが、外部言語モデルの復号化により精度が向上し、精度が低下したり、追加エラーが発生した場合の特定も行う。
本研究は、事前学習カバレッジ、モデルアーキテクチャ、データセットドメイン、リソース可用性の相互作用を強調することにより、未表現言語のためのASRシステムの設計に関する実践的および洞察を提供する。
関連論文リスト
- Efficient ASR for Low-Resource Languages: Leveraging Cross-Lingual Unlabeled Data [5.324230283177818]
低リソース言語に対する言語間連続事前学習の体系化について検討する。
スケーラブルなラベルなしデータ収集パイプラインを用いて,3000時間の多言語コーパスを構築した。
5倍の性能を持つ3Mパラメータモデルを構築するために, ターゲット型連続事前訓練と形態素認識トークン化を併用した。
論文 参考訳(メタデータ) (2025-12-08T08:16:34Z) - Breaking the Transcription Bottleneck: Fine-tuning ASR Models for Extremely Low-Resource Fieldwork Languages [1.758729398520438]
MMS と XLS-R の2つの細調整された多言語 ASR モデルの性能を,5つの型式的に多様な低リソース言語でベンチマークした。
XLS-Rはトレーニングデータが1時間を超えるとパリティ性能を示すのに対し,MMSは極端に少ないトレーニングデータが得られる場合に最適であることがわかった。
論文 参考訳(メタデータ) (2025-06-20T19:59:49Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [64.1520245849231]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。