論文の概要: Scaling HuBERT for African Languages: From Base to Large and XL
- arxiv url: http://arxiv.org/abs/2511.23370v1
- Date: Fri, 28 Nov 2025 17:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.994333
- Title: Scaling HuBERT for African Languages: From Base to Large and XL
- Title(参考訳): アフリカ言語のための HuBERT のスケーリング - ベースから大規模,XL まで
- Authors: Antoine Caubrière, Elodie Gauthier,
- Abstract要約: 本研究では,SSA-HuBERT-Large(317Mパラメータ),SSA-HuBERT-XL(964Mパラメータ)を紹介する。
最初の大きなモデルは、BASEサイズと並んで、アフリカ語のみに訓練された。
サブサハラ語にのみ焦点をあてた注意深く制御された実験を行い、大規模アーキテクチャが大規模オーディオデータセットを効果的に活用することで性能を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 0.5825599299113071
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite recent progress in multilingual speech processing, African languages remain under-represented in both research and deployed systems, particularly when it comes to strong, open-weight encoders that transfer well under low-resource supervision. Self-supervised learning has proven especially promising in such settings, yet most publicly released models targeting African speech remain at BASE scale, leaving unanswered whether larger encoders, trained exclusively on Africa-centric audio, offer tangible benefits and how model capacity interacts with data composition. This work addresses that gap by introducing SSA-HuBERT-Large (317M parameters) and SSA-HuBERT-XL (964M parameters), the first large models trained solely on African speech, alongside a BASE size counterpart. We release these models as open weights: see https://huggingface.co/collections/Orange/african-speech-foundation-models. By conducting a carefully controlled experimental study focused exclusively on Sub-Saharan languages, covering automatic speech recognition (ASR) and language identification (LID) tasks, we demonstrate that larger architectures significantly improve performance by effectively leveraging large audio datasets.
- Abstract(参考訳): 近年の多言語音声処理の進歩にもかかわらず、アフリカ言語は研究と展開システムの両方において、特に低リソースの監督の下で十分に転送される強力なオープンウェイトエンコーダにおいて、低水準に表現されている。
自己教師型学習はそのような環境で特に有望であることが証明されているが、アフリカスピーチをターゲットとするほとんどの公開モデルはBASEスケールのままであり、アフリカ中心のオーディオに特化して訓練されたより大きなエンコーダが、具体的な利点を提供し、モデルキャパシティがデータ構成とどのように相互作用するか、未解決のままである。
この研究は、SSA-HuBERT-Large(317Mパラメータ)とSSA-HuBERT-XL(964Mパラメータ)を導入することで、このギャップに対処する。
https://huggingface.co/collections/Orange/african-speech-foundation-modelsを参照してください。
サブサハラ語のみに焦点をあて,自動音声認識(ASR)と言語識別(LID)タスクを網羅した,注意深く制御された実験を行い,大規模な音声データセットを効果的に活用することで,大規模アーキテクチャが性能を大幅に向上することを示した。
関連論文リスト
- AfriSpeech-MultiBench: A Verticalized Multidomain Multicountry Benchmark Suite for African Accented English ASR [2.6822781046552824]
AfriSpeech-MultiBenchは、10以上の国で100以上のアフリカ英語アクセントのドメイン固有の評価スイートである。
オープン・クローズド・ユニモーダルASRとマルチモーダルLLMに基づく音声認識システムの多種多様なベンチマークを行った。
オープンソースのASRモデルは、自然発話の文脈では優れているが、ノイズの多い非ネイティブ対話では劣化する。
プロプライエタリなモデルはクリーンスピーチに高い精度を提供するが、国や領域によって大きく異なる。
論文 参考訳(メタデータ) (2025-11-18T08:44:17Z) - Speech Language Models for Under-Represented Languages: Insights from Wolof [9.14632796153174]
We present our journey in training a speech language model for Wolof, a underrepresented language spoken in West Africa。
まず,大規模で自発的で高品質な教師なし音声データを収集することの重要性を強調した。
このデータセット上でのHuBERTの事前学習は、ASRのベースモデルとアフリカ中心モデルの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-18T19:01:48Z) - Hello Afrika: Speech Commands in Kinyarwanda [0.0]
アフリカの言語には音声コマンドモデルのデジェスがあります。
Hello Afrikaはこの問題に対処することを目的としており、最初のイテレーションはKinyarwanda言語に焦点を当てている。
このモデルは、一般的な指示、数字、ウェイクワードで構成されたカスタム音声コマンドコーパスから構築された。
論文 参考訳(メタデータ) (2025-06-16T16:30:19Z) - Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。