論文の概要: SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation
- arxiv url: http://arxiv.org/abs/2606.02548v1
- Date: Mon, 01 Jun 2026 17:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.551722
- Title: SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation
- Title(参考訳): SN-WER:多言語適応型ASR評価のためのスクリプト非正規化WER
- Authors: Priyaranjan Pattnayak,
- Abstract要約: Script-Normalized WER (SN-WER) は、トレーニングフリーで評価のみのスコアリング手法である。
SN-WERを5つのIndic言語、2つのデータセット、3つのASRモデルで評価した。
- 参考スコア(独自算出の注目度): 0.8243795440723053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word Error Rate (WER) is the dominant metric for automatic speech recognition (ASR), but it can overestimate errors when references and hypotheses encode the same words in different scripts. This issue is common in multilingual settings where ASR models may emit romanized text. We propose Script-Normalized WER (SN-WER), a training-free, evaluation-only scoring method that transliterates both reference and hypothesis text into a language-specific canonical script before computing WER. We evaluate SN-WER on 5 Indic languages, 2 datasets, and 3 ASR models. On curated FLEURS data, SN-WER reduces inflated model gaps by up to 12%, while on noisier Common Voice data the reductions are smaller or inconsistent, indicating genuine recognition weaknesses rather than only script mismatch. Controlled stress tests show a 67% attenuation of artificial romanization-induced WER inflation, while lexical-substitution controls show near-identical sensitivity to semantic errors, with Delta SN-WER / Delta WER approximately 1.09. SN-WER is robust to transliterator choice, normalization changes, and shows low token-collision rates below 0.1% in the evaluated Indic setting. We argue that SN-WER should be reported alongside WER and CER as a companion metric for script-insensitive ASR evaluation, especially when transcripts feed downstream search, indexing, or multilingual LLM pipelines.
- Abstract(参考訳): 単語誤り率(WER)は自動音声認識(ASR)において支配的な指標であるが、参照や仮説が同じ単語を異なるスクリプトでエンコードした場合に過大評価されることがある。
この問題は、ASRモデルがロマライズされたテキストを出力する多言語設定で一般的である。
We propose Script-Normalized WER (SN-WER) was proposed Script-Normalized WER, a training-free, evaluation-only score method that translates both reference and hypothesis text before computing WER。
SN-WERを5つのIndic言語、2つのデータセット、3つのASRモデルで評価した。
改ざんされたFLEURSデータでは、SN-WERは膨らませたモデルのギャップを最大12%削減する一方、ノイズの多いCommon Voiceデータでは、削減は小さく、一貫性がなく、スクリプトミスマッチだけでなく、真の認識の弱点を示している。
制御されたストレス試験では, 人工ロマン化誘起WERインフレーションの67%が減衰し, 語彙置換制御ではデルタSN-WER/デルタWERは約1.09である。
SN-WERはトランスリテータの選択や正規化の変更に対して堅牢であり、評価されたインデックス設定ではトークンの衝突率が0.1%以下である。
SN-WER は WER と CER と共にスクリプト非依存な ASR 評価のための補助指標として報告されるべきである,と我々は主張する。
関連論文リスト
- Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation [53.844308305341166]
単一パスのASRフロントエンドと意味的訂正,意図のルーティング,推論に基づく編集を組み合わせた閉ループフレームワークである textbfAgentic ASR を提案する。
複数言語、名前付き集中型、コードスイッチングベンチマークの実験は、反復的相互作用が意味的誤りを一貫して減少させることを示している。
論文 参考訳(メタデータ) (2026-05-28T06:23:31Z) - Breaking the Script Barrier: Enabling Automatic Alignment for PoS-based ASR Error Analysis in Non-Latin Scripts [11.903384718183709]
Part-of-Speech (PoS)のようなきめ細かい分析は、ASR仮説と参照転写の正確な一致を必要とする。
既存のアライメントツールは、ラテン語以外のスクリプトで書かれた言語には信頼できないことが多い。
我々は、ASRおよびラテン文字と非ラテン文字の両方で記述された言語に適用可能な、堅牢で自動化された言語に依存しないアライメント機構を提案する。
論文 参考訳(メタデータ) (2026-05-27T13:04:10Z) - What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。