論文の概要: Where Are We At with Automatic Speech Recognition for the Bambara Language?
- arxiv url: http://arxiv.org/abs/2602.09785v1
- Date: Tue, 10 Feb 2026 13:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.555451
- Title: Where Are We At with Automatic Speech Recognition for the Bambara Language?
- Title(参考訳): バンバラ語の自動音声認識について
- Authors: Seydou Diallo, Yacouba Diarra, Mamadou K. Keita, Panga Azazia Kamaté, Adam Bouno Kampo, Aboubacar Ouattara,
- Abstract要約: 本稿では,バンバラ語における音声認識(ASR)の評価のための最初の標準ベンチマークを提案する。
このベンチマークは、Bambaraで訓練されたシステムから大規模商用モデルまで、37のモデルの評価に使用された。
- 参考スコア(独自算出の注目度): 0.7037008937757393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the first standardized benchmark for evaluating Automatic Speech Recognition (ASR) in the Bambara language, utilizing one hour of professionally recorded Malian constitutional text. Designed as a controlled reference set under near-optimal acoustic and linguistic conditions, the benchmark was used to evaluate 37 models, ranging from Bambara-trained systems to large-scale commercial models. Our findings reveal that current ASR performance remains significantly below deployment standards in a narrow formal domain; the top-performing system in terms of Word Error Rate (WER) achieved 46.76\% and the best Character Error Rate (CER) of 13.00\% was set by another model, while several prominent multilingual models exceeded 100\% WER. These results suggest that multilingual pre-training and model scaling alone are insufficient for underrepresented languages. Furthermore, because this dataset represents a best-case scenario of the most simplified and formal form of spoken Bambara, these figures are yet to be tested against practical, real-world settings. We provide the benchmark and an accompanying public leaderboard to facilitate transparent evaluation and future research in Bambara speech technology.
- Abstract(参考訳): 本稿では,Bambara言語におけるASR(Automatic Speech Recognition)評価のための最初の標準ベンチマークについて紹介する。
ほぼ最適音響および言語条件下で制御された参照セットとして設計されたこのベンチマークは、バーバラ訓練システムから大規模商用モデルまで、37のモデルを評価するために使用された。
単語誤り率(WER)が46.76 %,文字誤り率(CER)が13.00 %,顕著な多言語モデル(WER)が100 %を突破した。
これらの結果から,多言語事前学習とモデルスケーリングだけでは表現不足の言語には不十分であることが示唆された。
さらに、このデータセットは、話されるバンバラの最もシンプルで形式的な形の最良のシナリオであるため、実際の実世界の設定に対してはまだテストされていない。
バンバラ音声技術における透明な評価と今後の研究を容易にするためのベンチマークと,それに伴う公開リーダボードを提供する。
関連論文リスト
- PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Qalb: Largest State-of-the-Art Urdu Large Language Model for 230M Speakers with Systematic Continued Pre-training [3.950299047992185]
ウルドゥー語は、2億3000万人以上の人々が話しており、現代のNLPシステムでは批判的に不足している。
2段階のアプローチで開発された言語モデルであるQalbを紹介した。
この結果から,多種多様な高品質な言語データに対する事前学習が,目標とする命令の微調整と相まって,基礎モデルを低リソース言語に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2026-01-13T02:05:05Z) - Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。