論文の概要: Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German
- arxiv url: http://arxiv.org/abs/2605.19069v3
- Date: Fri, 22 May 2026 17:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.693465
- Title: Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German
- Title(参考訳): コード交換音声における商用ASRシステムのベンチマーク:アラビア語、ペルシア語、ドイツ語
- Authors: Sajjad Abdoli, Ghassan Al-Sumaidaee, Clayton W. Taylor, Ahmad ElShiekh, Ahmed Rashad,
- Abstract要約: 我々は、4つの言語ペアで5つの商用ASRプロバイダを評価するベンチマークを示す。
We evaluate on WER and BERTScore, showed that both metrics agree on the Ordinal ranking of systems, WER inflats the size of quality gaps。
ElevenLabs Scribe v2は最低のWER(全体の13.2%)を獲得し、BERTScore(全体の0.936)に導かれる。
- 参考スコア(独自算出の注目度): 0.34797121357690153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching -- the natural alternation between two languages within a single utterance -- remains one of the most challenging and under-studied conditions for automatic speech recognition (ASR). We present a benchmark evaluating five commercial ASR providers across four language pairs: Egyptian Arabic--English, Saudi Arabic (Najdi/Hijazi)--English, Persian (Farsi)--English, and German--English, comprising 300 samples per pair selected by a two-stage pipeline combining heuristic filtering with a GPT-4o and Gemini 1.5 Pro ensemble scorer, reducing LLM costs by $\approx$91\%. We evaluate on both WER and BERTScore, showing that while both metrics agree on the ordinal ranking of systems for all Arabic and Persian pairs ($τ= 1.0$), WER inflates the magnitude of quality gaps by approximately 3$\times$ by penalising semantically correct transliteration choices. ElevenLabs Scribe v2 achieves the lowest WER (13.2\% overall) and leads on BERTScore (0.936 overall). Difficulty-stratified analysis reveals performance gaps masked by aggregate averages, and BERT embedding projections confirm semantic proximity between reference and hypothesis despite surface-level script differences. The dataset is publicly available at https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch.
- Abstract(参考訳): コードスイッチング(英: Code-switching)は、1つの発話の中で2つの言語間の自然な交替であり、自動音声認識(ASR)の最も困難で未研究の条件の1つである。
GPT-4o と Gemini 1.5 Pro アンサンブルスコアラーを併用した2段階のパイプラインで選択された1対300サンプルからなり,LLM のコストを$\approx$91\%削減する。
We evaluate on both WER and BERTScore, showed the both metrics agree on the Ordinal ranking of systems for all Arabic and Persian pairs(τ=1.0$) but WER inflats the size of quality gaps by approximately 3$\times$ by penalising semantically correct transliteration choices。
ElevenLabs Scribe v2 は WER (全体 13.2 %) が最も低く、BERTScore (全体0.936) に導かれる。
難解な階層化分析により,集合平均によって隠蔽される性能ギャップが明らかになり,BERT埋め込み投影は,表層スクリプトの違いにもかかわらず,参照と仮説のセマンティックな近接性を確認する。
データセットはhttps://huggingface.co/datasets/Perle-ai/ASR_Code_Switchで公開されている。
関連論文リスト
- MUSCAT: MUltilingual, SCientific ConversATion Benchmark [60.87925076316812]
多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-04-17T10:39:01Z) - Multilingual Prompt Localization for Agent-as-a-Judge: Language and Backbone Sensitivity in Requirement-Level Evaluation [0.8253953000831505]
我々はエージェント・ア・ジャッジ・プロンプト・スタックを5つのタイプ的多様言語(英語、アラビア語、トルコ語、中国語、ヒンディー語)にローカライズする。
3つの開発者エージェントフレームワークと6つの審査バックボーンで55のDevAI開発タスクを評価し、合計4950回の審査を実行した。
GPT-4oは英語で最も満足度が高い(44.72%)のに対し、ジェミニはアラビア語(51.72%、$p0.001$、GPT-4o、Hindi)である。
論文 参考訳(メタデータ) (2026-04-06T08:54:16Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - One Instruction Does Not Fit All: How Well Do Embeddings Align Personas and Instructions in Low-Resource Indian Languages? [1.071318785217926]
インドの12の言語と4つの評価課題にまたがるベンチマークを提示する。
E5-Large-Instructはモノリンガル検索で27.4%、クロスリンガル転送で20.7%のリコール@1を達成している。
分類において、LaBSEは75.3%のAUROCを獲得し、校正が強い。
論文 参考訳(メタデータ) (2026-01-15T09:10:14Z) - ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis [3.763275651955603]
既存のペルシア語のデータセットは、典型的には英語のデータセットよりも小さい。
ParsVoice はペルシャ語で最大の音声コーパスで、テキストから音声への応用に特化して設計された。
論文 参考訳(メタデータ) (2025-10-12T19:33:11Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Exploring SSL Discrete Tokens for Multilingual ASR [29.059205486691745]
本研究では,複数の言語領域にまたがるSSLモデルの離散トークンの比較を行った。
実験により、離散トークンは、ASRタスクにおけるFbank機能に基づいて訓練されたシステムに対して、同等の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-13T13:13:39Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。
我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。
ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-01T15:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。