論文の概要: AfriVox-v2: A Domain-Verticalized Benchmark for In-the-Wild African Speech Recognition
- arxiv url: http://arxiv.org/abs/2605.03590v1
- Date: Tue, 05 May 2026 10:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.887323
- Title: AfriVox-v2: A Domain-Verticalized Benchmark for In-the-Wild African Speech Recognition
- Title(参考訳): AfriVox-v2: 帯域内アフリカ音声認識のためのドメイン垂直化ベンチマーク
- Authors: Busayo Awobade, Gabrial Zencha Ashungafac, Tobi Olatunji,
- Abstract要約: AfriVox-v2は、アフリカの現実的な展開条件下で音声モデルをテストするために設計された包括的なベンチマークである。
また、Sahara-v2、Gemini 3 Flash、Omnilingual CTCモデルなど、新しい世代の音声モデルもベンチマークします。
この結果から, 専門的, 騒々しいアフリカの文脈における現代音声モデルの真の一般化ギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 1.5081019182566802
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent large language models (LLMs) show strong speech recognition and translation capabilities for high-resource languages. However, African languages remain dramatically underrepresented in benchmarks, limiting their practical use in low-resource settings. While early benchmarks tested African languages and accents, they lacked exhaustive real-world noise and granular domain evaluations. We present AfriVox-v2, a comprehensive benchmark designed to test speech models under realistic African deployment conditions. AfriVox-v2 introduces "in the wild" unscripted audio for all supported languages. We also introduce strict domain verticalization, evaluating model accuracy across ten sectors including government, finance, health, and agriculture and conducting targeted tests on numbers and named entities. Finally, we benchmark a new generation of speech models, including Sahara-v2, Gemini 3 Flash, and the Omnilingual CTC models. Our results expose the true generalization gap of modern speech models in specialized, noisy African contexts and provide a reliable blueprint for developers building localized voice AI.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) は, 高ソース言語に対する強力な音声認識と翻訳能力を示している。
しかしながら、アフリカの言語はベンチマークにおいて劇的に不足しており、低リソース環境での使用を制限している。
初期のベンチマークではアフリカの言語とアクセントをテストしたが、徹底的な現実世界のノイズと詳細なドメイン評価が欠如していた。
AfriVox-v2は、アフリカの現実的な展開条件下で音声モデルをテストするために設計された包括的なベンチマークである。
AfriVox-v2はすべてのサポート対象言語に対して"ワイルド"なアンスクリプトオーディオを導入している。
また、厳密な領域の垂直化を導入し、政府、金融、健康、農業を含む10分野のモデル精度を評価し、番号や名前付きエンティティのターゲットテストを実施します。
最後に、Sahara-v2、Gemini 3 Flash、Omnilingual CTCモデルなど、新しい世代の音声モデルをベンチマークする。
この結果から, 局所的な音声AIを構築する開発者に対して, 特殊でノイズの多いアフリカの状況下での現代音声モデルの真の一般化ギャップを明らかにし, 信頼性の高い青写真を提供する。
関連論文リスト
- PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Scaling HuBERT for African Languages: From Base to Large and XL [0.5825599299113071]
本研究では,SSA-HuBERT-Large(317Mパラメータ),SSA-HuBERT-XL(964Mパラメータ)を紹介する。
最初の大きなモデルは、BASEサイズと並んで、アフリカ語のみに訓練された。
サブサハラ語にのみ焦点をあてた注意深く制御された実験を行い、大規模アーキテクチャが大規模オーディオデータセットを効果的に活用することで性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-11-28T17:17:40Z) - AfriSpeech-MultiBench: A Verticalized Multidomain Multicountry Benchmark Suite for African Accented English ASR [2.6822781046552824]
AfriSpeech-MultiBenchは、10以上の国で100以上のアフリカ英語アクセントのドメイン固有の評価スイートである。
オープン・クローズド・ユニモーダルASRとマルチモーダルLLMに基づく音声認識システムの多種多様なベンチマークを行った。
オープンソースのASRモデルは、自然発話の文脈では優れているが、ノイズの多い非ネイティブ対話では劣化する。
プロプライエタリなモデルはクリーンスピーチに高い精度を提供するが、国や領域によって大きく異なる。
論文 参考訳(メタデータ) (2025-11-18T08:44:17Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Adaptability of ASR Models on Low-Resource Language: A Comparative Study of Whisper and Wav2Vec-BERT on Bangla [0.0]
本研究では,2つの最先端自動音声認識(ASR)モデル,OpenAIのWhisper(Small & Large-V2)とFacebookのWav2Vec-BERT(Bangla)の性能について検討した。
論文 参考訳(メタデータ) (2025-07-02T17:44:54Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。