論文の概要: Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German
- arxiv url: http://arxiv.org/abs/2605.19069v2
- Date: Thu, 21 May 2026 17:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.888578
- Title: Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German
- Title(参考訳): コード交換音声における商用ASRシステムのベンチマーク:アラビア語、ペルシア語、ドイツ語
- Authors: Sajjad Abdoli, Ghassan Al-Sumaidaee, Clayton W. Taylor, Ahmad ElShiekh, Ahmed Rashad,
- Abstract要約: コードスイッチングは、自動音声認識において最も困難で未研究の条件の1つである。
我々は、4つの言語ペアで5つの商用ASRプロバイダを評価するベンチマークを示す。
- 参考スコア(独自算出の注目度): 0.34797121357690153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching -- the natural alternation between two languages within a single utterance -- represents one of the most challenging and under-studied conditions for automatic speech recognition (ASR). Existing commercial ASR benchmarks predominantly evaluate clean, monolingual audio and report a single Word Error Rate (WER) figure that tells practitioners little about real-world multilingual performance. We present a benchmark evaluating five commercial ASR providers across four language pairs: Egyptian Arabic--English, Saudi Arabic (Najdi/Hijazi)--English, Persian (Farsi)--English, and German--English. Each dataset comprises 300 samples selected by a two-stage pipeline: a heuristic filter scoring transcripts on five structural code-switching signals, followed by a GPT-4o and Gemini 1.5 Pro ensemble scoring candidates across six linguistic dimensions. This pipeline reduces LLM scoring costs by approximately 91% relative to exhaustive scoring. We evaluate the systems on both WER and BERTScore, arguing that BERTScore is a more reliable metric for Arabic and Persian pairs where transliteration variance causes WER to penalise semantically correct transcriptions. ElevenLabs Scribe v2 achieves the lowest WER across all four language pairs (13.2% overall; 13.1% on Egyptian Arabic) and leads on BERTScore (0.936 overall). We further demonstrate that difficulty-stratified analysis reveals performance gaps masked by aggregate averages, and that BERT embedding projections confirm semantic proximity between reference and hypothesis despite surface-level script differences. The benchmarking dataset is publicly available at https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch.
- Abstract(参考訳): コードスイッチング(英: Code-switching)とは、単一発話における2つの言語間の自然な交替であり、自動音声認識(ASR)において最も困難で未研究の条件の1つである。
既存の商用ASRベンチマークは、クリーンでモノリンガルなオーディオを評価し、実践者が実世界のマルチリンガルのパフォーマンスについてほとんど語らない1つのワードエラー率(WER)を報告している。
エジプト語: アラビア語、サウジアラビア語: Najdi/Hijazi)-英語、ペルシア語: Farsi)-英語、ドイツ語: German- English である。
各データセットは、2段階のパイプラインで選択された300のサンプルからなる: 5つの構造的コードスイッチング信号の転写をヒューリスティックフィルタでスコアリングし、続いてGPT-4oとGemini 1.5 Proのアンサンブルにより、6つの言語的次元の候補をスコアリングする。
このパイプラインは、総得点に対してLCMのスコアリングコストを約91%削減する。
We evaluate the systems on both WER and BERTScore, that BERTScore is a more reliable metric for Arabic and Persian pairs which WER to penalise correct transcriptions。
ElevenLabs Scribe v2は4つの言語ペアの中で最も低いWER(全体の13.2%、エジプト語では13.1%)を獲得し、BERTScore(全体の0.936)に導かれる。
さらに,解析の難易度は,集合平均によって隠蔽される性能ギャップを明らかにし,BERT埋め込みプロジェクションは,表層スクリプトの違いにもかかわらず,参照と仮説のセマンティックな近接性を確認することを実証した。
ベンチマークデータセットはhttps://huggingface.co/datasets/Perle-ai/ASR_Code_Switchで公開されている。
関連論文リスト
- MUSCAT: MUltilingual, SCientific ConversATion Benchmark [60.87925076316812]
多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-04-17T10:39:01Z) - Multilingual Prompt Localization for Agent-as-a-Judge: Language and Backbone Sensitivity in Requirement-Level Evaluation [0.8253953000831505]
我々はエージェント・ア・ジャッジ・プロンプト・スタックを5つのタイプ的多様言語(英語、アラビア語、トルコ語、中国語、ヒンディー語)にローカライズする。
3つの開発者エージェントフレームワークと6つの審査バックボーンで55のDevAI開発タスクを評価し、合計4950回の審査を実行した。
GPT-4oは英語で最も満足度が高い(44.72%)のに対し、ジェミニはアラビア語(51.72%、$p0.001$、GPT-4o、Hindi)である。
論文 参考訳(メタデータ) (2026-04-06T08:54:16Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - One Instruction Does Not Fit All: How Well Do Embeddings Align Personas and Instructions in Low-Resource Indian Languages? [1.071318785217926]
インドの12の言語と4つの評価課題にまたがるベンチマークを提示する。
E5-Large-Instructはモノリンガル検索で27.4%、クロスリンガル転送で20.7%のリコール@1を達成している。
分類において、LaBSEは75.3%のAUROCを獲得し、校正が強い。
論文 参考訳(メタデータ) (2026-01-15T09:10:14Z) - ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis [3.763275651955603]
既存のペルシア語のデータセットは、典型的には英語のデータセットよりも小さい。
ParsVoice はペルシャ語で最大の音声コーパスで、テキストから音声への応用に特化して設計された。
論文 参考訳(メタデータ) (2025-10-12T19:33:11Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Exploring SSL Discrete Tokens for Multilingual ASR [29.059205486691745]
本研究では,複数の言語領域にまたがるSSLモデルの離散トークンの比較を行った。
実験により、離散トークンは、ASRタスクにおけるFbank機能に基づいて訓練されたシステムに対して、同等の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-13T13:13:39Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。
我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。
ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-01T15:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。