論文の概要: AfriSpeech-MultiBench: A Verticalized Multidomain Multicountry Benchmark Suite for African Accented English ASR
- arxiv url: http://arxiv.org/abs/2511.14255v1
- Date: Tue, 18 Nov 2025 08:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.015168
- Title: AfriSpeech-MultiBench: A Verticalized Multidomain Multicountry Benchmark Suite for African Accented English ASR
- Title(参考訳): AfriSpeech-MultiBench:アフリカ系英語ASRのための垂直化マルチドメインベンチマークスイート
- Authors: Gabrial Zencha Ashungafac, Mardhiyah Sanni, Busayo Awobade, Alex Gichamba, Tobi Olatunji,
- Abstract要約: AfriSpeech-MultiBenchは、10以上の国で100以上のアフリカ英語アクセントのドメイン固有の評価スイートである。
オープン・クローズド・ユニモーダルASRとマルチモーダルLLMに基づく音声認識システムの多種多様なベンチマークを行った。
オープンソースのASRモデルは、自然発話の文脈では優れているが、ノイズの多い非ネイティブ対話では劣化する。
プロプライエタリなモデルはクリーンスピーチに高い精度を提供するが、国や領域によって大きく異なる。
- 参考スコア(独自算出の注目度): 2.6822781046552824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in speech-enabled AI, including Google's NotebookLM and OpenAI's speech-to-speech API, are driving widespread interest in voice interfaces globally. Despite this momentum, there exists no publicly available application-specific model evaluation that caters to Africa's linguistic diversity. We present AfriSpeech-MultiBench, the first domain-specific evaluation suite for over 100 African English accents across 10+ countries and seven application domains: Finance, Legal, Medical, General dialogue, Call Center, Named Entities and Hallucination Robustness. We benchmark a diverse range of open, closed, unimodal ASR and multimodal LLM-based speech recognition systems using both spontaneous and non-spontaneous speech conversation drawn from various open African accented English speech datasets. Our empirical analysis reveals systematic variation: open-source ASR models excels in spontaneous speech contexts but degrades on noisy, non-native dialogue; multimodal LLMs are more accent-robust yet struggle with domain-specific named entities; proprietary models deliver high accuracy on clean speech but vary significantly by country and domain. Models fine-tuned on African English achieve competitive accuracy with lower latency, a practical advantage for deployment, hallucinations still remain a big problem for most SOTA models. By releasing this comprehensive benchmark, we empower practitioners and researchers to select voice technologies suited to African use-cases, fostering inclusive voice applications for underserved communities.
- Abstract(参考訳): GoogleのNotebookLMやOpenAIの音声合成APIなど、音声対応AIの最近の進歩は、世界中の音声インターフェースに広く関心を集めている。
この勢いにもかかわらず、アフリカにおける言語的多様性を考慮に入れたアプリケーション固有のモデル評価は公開されていない。
AfriSpeech-MultiBenchは、10以上の国と7つのアプリケーションドメイン(ファイナンス、法、医学、一般対話、コールセンター、名前付きエンティティ、幻覚ロバストネス)にまたがる100以上のアフリカ英語のアクセントに対する最初のドメイン固有の評価スイートである。
オープン・クローズド・ユニモーダルASRおよびマルチモーダルLLMに基づく音声認識システムにおいて,様々なオープン・アフリカ・アクセント付き英語音声データセットから自発的・非自発的な会話を抽出した。
オープンソースのASRモデルは、自然発話の文脈では優れているが、ノイズの多い非ネイティブ対話では劣化し、マルチモーダルLLMはアクセントが強く、ドメイン固有の名前を持つエンティティと競合し、プロプライエタリモデルはクリーンスピーチでは高い精度を提供するが、国やドメインによって大きく異なる。
アフリカ英語で微調整されたモデルは、低レイテンシで競合する精度を実現している。
この包括的なベンチマークをリリースすることによって、実践者や研究者はアフリカのユースケースに適した音声技術を選択できるようになる。
関連論文リスト
- Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond [0.0]
Afrispeech-Dialogは、医学的および非医学的アフリカ中心の英語会話を模擬した50のベンチマークデータセットである。
長音のアクセント付き音声に対して,最先端話者ダイアリゼーション(SOTA)とASRシステムを評価し,その性能をネイティブアクセントと比較し,10%以上の性能劣化を見出した。
論文 参考訳(メタデータ) (2025-02-06T10:33:07Z) - Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - 1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis [1.7606944034136094]
Afro-TTSは、最初のパン・アフリカ英語アクセント音声合成システムである。
話者は自然さとアクセントを保ち、新しい声を作り出すことができる。
論文 参考訳(メタデータ) (2024-06-17T16:46:10Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - Deep Speech Based End-to-End Automated Speech Recognition (ASR) for
Indian-English Accents [0.0]
インド英語アクセントのエンドツーエンド音声認識システムの開発にトランスファーラーニングアプローチを用いた。
インド英語アクセントのインデックスTSデータは、事前訓練されたディープ音声モデルの転写学習と微調整に使用される。
論文 参考訳(メタデータ) (2022-04-03T03:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。