論文の概要: WAXAL-NET: Finetuned Edge ASR Across 19 African Languages
- arxiv url: http://arxiv.org/abs/2606.02375v1
- Date: Mon, 01 Jun 2026 15:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.386039
- Title: WAXAL-NET: Finetuned Edge ASR Across 19 African Languages
- Title(参考訳): WAXAL-NET:19のアフリカ言語にまたがるエッジASR
- Authors: Victor Tolulope Olufemi, Oreoluwa Babatunde, Ramsey Njema, Bolarinwa Gbotemi, Wanchi Lucia Yen, John Uzodinma, Sunday Ajayi, Oluwademilade Williams, Kausar Moshood, Innocent Elendu Anyaele, Akebert Arefaine, Candace Hunzwi, Wongel Dawit Daniel, Emmilly Namuganga, Cleophas Kadima, Athanase Bahizire, Onitsiky Ranaivoson, Emmanuel Aaron, Nicholaus Ladislaus, Idris Muhammed, Jonathan Enoch Simenya, Martin Koome, Matewos Tegete Endaylalu, Peter Ifeoluwa Adeyemo, Hondi Prisca Birindwa, Ukachi Agnes Eze-Mbey, Yacoba Oduro-Yeboah, Pericles Adjovi, Mikel K. Ngueajio, Toluwani Aremu, Prasenjit Mitra,
- Abstract要約: 細調整されたエッジモデルは、マクロ平均WERが38.0%$であるのに対し、最高のゼロショットベースラインは64.9%$である。
その結果, 自発性アフリカ発声における領域特化の尺度が支配的であることが確認された。
- 参考スコア(独自算出の注目度): 7.30458363825564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate whether compact domain-specialized ASR models can outperform massively multilingual foundation models for conversational African speech across 19 languages in the WAXAL corpus. Fine-tuned edge models achieve a macro-averaged WER of $38.0\%$ compared to $64.9\%$ for the best zero-shot baseline, a $26.9$ percentage-point reduction using models $3-40\times$ smaller. Results confirm that domain specialization dominates scale for spontaneous African speech. Cross-domain evaluation shows that fine-tuned models recover usable performance on out-of-distribution (OOD) speech, while zero-shot models regain an advantage when the test domain matches their pretraining distribution. A distributed native-speaker audit across all surveyed languages produces a linguistically-grounded error taxonomy, showing that CTC and autoregressive architectures behave differently across language families. We further show that WER alone misrepresents performance for syllabary-script languages where CER/WER ratios reveal substantially higher character-level accuracy than headline WER suggests. Finally, to contribute to future African ASR research, we release all model weights, fine-tuning and evaluation scripts, and a cleaned WAXAL subset covering all $19$ languages.
- Abstract(参考訳): WAXALコーパス内の19言語を対象として,コンパクトなドメイン特化ASRモデルが対話型アフリカ音声の多言語基盤モデルよりも優れているか否かを評価する。
細調整されたエッジモデルは、マクロ平均WERが38.0.%、最高のゼロショットベースラインが64.9.%、モデルが36.9ドル、より小さいモデルが3~40ドルである。
その結果, 自発性アフリカ発声における領域特化の尺度が支配的であることが確認された。
クロスドメイン評価では,テスト領域が事前学習分布と一致した場合にゼロショットモデルが有利であるのに対して,微調整モデルではオフ・オブ・ディストリビューション(OOD)音声で使用可能な性能が回復することが示された。
全ての調査対象言語にまたがる分散ネイティブ話者監査は言語学的に基底的な誤り分類を生み出し、CTCと自己回帰アーキテクチャが言語家族間で異なる振る舞いをすることを示す。
さらに,CER/WER比が見出しWERが提案するよりもかなり高い文字レベル精度を示す場合,WER単独でSyllabary-script言語の性能を誤表現していることを示す。
最後に、今後のアフリカASR研究に貢献するために、すべてのモデルウェイト、微調整および評価スクリプト、および19ドルのすべての言語をカバーするクリーン化されたWAXALサブセットをリリースする。
関連論文リスト
- Where Are We At with Automatic Speech Recognition for the Bambara Language? [0.7037008937757393]
本稿では,バンバラ語における音声認識(ASR)の評価のための最初の標準ベンチマークを提案する。
このベンチマークは、Bambaraで訓練されたシステムから大規模商用モデルまで、37のモデルの評価に使用された。
論文 参考訳(メタデータ) (2026-02-10T13:44:51Z) - The ML-SUPERB 2.0 Challenge: Towards Inclusive ASR Benchmarking for All Language Varieties [107.57160730151975]
我々は200以上の言語、アクセント、方言のデータからなる新しいテストスイートを構築し、SOTA多言語音声モデルを評価する。
その結果, LIDの精度は23%, CERは18%向上した。
アクセントと方言のデータでは、最も良い提出は30.2%低いCERと15.7%高いLIDの精度を得た。
論文 参考訳(メタデータ) (2025-09-08T18:42:36Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - AfriHuBERT: A self-supervised speech representation model for African languages [44.722780475475915]
AfriHuBERTは、147言語で事前訓練された、コンパクトな自己教師付き学習(SSL)モデルであるmHuBERT-147の拡張である。
mHuBERT-147は16のアフリカの言語をカバーしていたが、様々な情報源から10K時間以上の音声データを事前学習することで1,226に拡張した。
音声言語識別(SLID)と音声認識(ASR)の2つの重要なタスクについてAfriHuBERTを評価する。
SLIDは3.6%, 平均単語誤り率(WER)は2.1%, 平均単語誤り率(WER)はmHuBERT-147。
論文 参考訳(メタデータ) (2024-09-30T11:28:33Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。