論文の概要: Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2605.17710v1
- Date: Mon, 18 May 2026 00:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.488751
- Title: Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation
- Title(参考訳): Sometin Beta Pass Notin (SBPN):知識蒸留によるナイジェリア語用多言語ASRの改良
- Authors: Sewade Ogun,
- Abstract要約: ナイジェリアの言語には、急激なデータ不足、一貫性のない正書法、声調の発音、多様なアクセント、頻繁なコードスイッチング、ローカライズされた名前のエンティティなど、ユニークなモデリングのハードルがある。
これらの課題に対処するため, 2段階蒸留プロセスを利用した多言語ASRフレームワークを開発した。
本稿では,ヨルブ,ハウサ,イグボ,ナイジェリア・ピジン,ナイジェリア英語をカバーする多言語ASRモデルであるSometin Beta Pass Notin(SBPN)を紹介する。
- 参考スコア(独自算出の注目度): 1.9346797099839141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although modern multilingual Automatic Speech Recognition (ASR) systems support several Nigerian languages, their performance consistently lags behind high-resource languages like English and French. Nigerian languages present unique modelling hurdles, including acute data scarcity, inconsistent orthography, tonal diacritics, diverse accents, frequent code-switching, and localized named entities. To address these challenges, we developed a multilingual ASR framework utilizing a two-stage distillation process. First, we employ student-teacher knowledge distillation from existing monolingual models, conditioned on robust language-specific N-gram language models. Second, we perform iterative self improvement using pseudo-labelled data to further refine accuracy. Our method significantly bridges the performance gap, achieving on average a relative Word Error Rate (WER) reduction of 29 % over monolingual baselines. Our models also outperform state-of-the-art multilingual models across major benchmarks, including Common Voice and Fleurs. We introduce Sometin Beta Pass Notin (SBPN), a foundational multilingual ASR model covering Yorùbá, Hausa, Igbo, Nigerian Pidgin, and Nigerian English. SBPN is released in two sizes: SBPN-Base (120 M parameters) and SBPN-Large (600 M parameters). By releasing these as open foundation models, we aim to provide ASR resources for further research into the rich phonetic and cultural landscape of the region.
- Abstract(参考訳): 現代の多言語自動音声認識(ASR)システムはナイジェリア語をサポートしているが、その性能は英語やフランス語のような高リソース言語に一貫して遅れている。
ナイジェリアの言語には、急激なデータ不足、一貫性のない正書法、声調の発音、多様なアクセント、頻繁なコードスイッチング、ローカライズされた名前のエンティティなど、ユニークなモデリングのハードルがある。
これらの課題に対処するため, 2段階蒸留プロセスを利用した多言語ASRフレームワークを開発した。
まず,頑健な言語固有のN-gram言語モデルに基づいて,既存の単言語モデルから学生-教師の知識蒸留を採用する。
次に、擬似ラベル付きデータを用いて反復自己改善を行い、精度をさらに高める。
提案手法は, 平均単語誤り率(WER)を29%減らすことで, 性能ギャップを著しく橋渡しする。
私たちのモデルは、Common VoiceやFleursなど、主要なベンチマークで最先端の多言語モデルよりも優れています。
Sometin Beta Pass Notin (SBPN) は、ヨルバ、ハウサ、イグボ、ナイジェリア・ピジン、ナイジェリア英語をカバーする基礎的多言語ASRモデルである。
SBPNはSBPN-Base(120Mパラメータ)とSBPN-Large(600Mパラメータ)の2つのサイズでリリースされた。
これらをオープン・ファンデーション・モデルとして公開することにより、地域の豊かな音素・文化的景観のさらなる研究にASRの資源を提供することを目標にしている。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin [1.099532646524593]
本稿ではナイジェリアのピジン英語向けにカスタマイズされたエンドツーエンド音声認識システムの開発に焦点をあてる。
我々は,新しいデータセットを用いて,事前訓練された最先端アーキテクチャについて検討・評価を行った。
このアーキテクチャをデータセットで表現されたニュアンスに適応することにより、エラーを59.84%削減する。
論文 参考訳(メタデータ) (2020-10-21T16:32:58Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。