論文の概要: Towards Orthographically-Informed Evaluation of Speech Recognition Systems for Indian Languages
- arxiv url: http://arxiv.org/abs/2603.00941v1
- Date: Sun, 01 Mar 2026 06:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.423409
- Title: Towards Orthographically-Informed Evaluation of Speech Recognition Systems for Indian Languages
- Title(参考訳): インド言語音声認識システムのオーソグラフィ的評価に向けて
- Authors: Kaushal Santosh Bhogale, Tahir Javed, Greeshma Susan John, Dhruv Rathi, Akshayasree Padmanaban, Niharika Parasa, Mitesh M. Khapra,
- Abstract要約: インド語のASRシステムを評価することは、綴りのバリエーションによって困難である。
従来の単語誤り率 (WER) は、人間が知覚するよりも、システムパフォーマンスのブラーカーなイメージをしばしば提示する。
許容可能なバリエーションをキャプチャするベンチマークを作成するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.479176344686316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating ASR systems for Indian languages is challenging due to spelling variations, suffix splitting flexibility, and non-standard spellings in code-mixed words. Traditional Word Error Rate (WER) often presents a bleaker picture of system performance than what human users perceive. Better aligning evaluation with real-world performance requires capturing permissible orthographic variations, which is extremely challenging for under-resourced Indian languages. Leveraging recent advances in LLMs, we propose a framework for creating benchmarks that capture permissible variations. Through extensive experiments, we demonstrate that OIWER, by accounting for orthographic variations, reduces pessimistic error rates (an average improvement of 6.3 points), narrows inflated model gaps (e.g., Gemini-Canary performance difference drops from 18.1 to 11.5 points), and aligns more closely with human perception than prior methods like WER-SN by 4.9 points.
- Abstract(参考訳): インド語のASRシステムの評価は、スペルのバリエーション、接尾辞分割の柔軟性、およびコードミキシングされた単語の非標準スペルによって困難である。
従来の単語誤り率 (WER) は、人間が知覚するよりも、システムパフォーマンスのブラーカーなイメージをしばしば提示する。
実世界のパフォーマンスとの整合性を評価するには、許容可能な正書法の変化を捉える必要がある。
LLMの最近の進歩を生かして、許容可能なバリエーションをキャプチャするベンチマークを作成するためのフレームワークを提案する。
広汎な実験により,OIWERは正書法の変化を考慮し,悲観的誤差率(平均6.3点)を低減し,モデルギャップを狭める(例えば,ゲミニカナリア性能差が18.1点から11.5点に減少する)とともに,WER-SNのような従来の手法よりも人間の知覚とより密に連携することを示した。
関連論文リスト
- Crosslingual Optimized Metric for Translation Assessment of Indian Languages [3.3904531496305683]
我々は、21の翻訳方向をカバーする13のインドの言語に対して、人間の評価評価データセットを作成する。
次に、このデータセットに基づいて、言語間最適化基準(COMTAIL)というニューラルネットワーク評価指標をトレーニングする。
最高のパフォーマンスのメートル法変種は、少なくとも1つのインド語の翻訳ペアをアジャッジする場合に、過去の最先端技術よりも顕著なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-09-22T12:11:42Z) - Out of Style: RAG's Fragility to Linguistic Variation [29.59506089890902]
ユーザクエリは言語的なバリエーションが大きく、依存するRAGコンポーネント間のカスケードエラーを引き起こす可能性がある。
我々は,4つの言語的次元(形式性,可読性,丁寧性,文法的正しさ)がRAG性能に与える影響を分析する。
論文 参考訳(メタデータ) (2025-04-11T03:30:26Z) - Advocating Character Error Rate for Multilingual ASR Evaluation [1.2597747768235845]
本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。
我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。
以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T19:57:07Z) - What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer
with Fine-tuning Slow and Fast [50.19681990847589]
既存の研究では、1つの(ソース)言語で微調整された多言語事前学習言語モデルが、非ソース言語の下流タスクでもうまく機能していることが示されている。
本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。
論文 参考訳(メタデータ) (2023-05-19T06:04:21Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。