論文の概要: What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations
- arxiv url: http://arxiv.org/abs/2409.02449v1
- Date: Wed, 4 Sep 2024 05:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:15:07.480915
- Title: What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations
- Title(参考訳): 正規化で失うものは何か? 多言語ASRモデル評価における落とし穴の探索
- Authors: Kavya Manohar, Leena G Pillai,
- Abstract要約: 本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化のプラクティスが、Indicスクリプトに適用された場合、根本的な欠陥があることを明らかにした。
本稿では,言語学の専門知識を生かした正規化ルーチン開発へのシフトを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper explores the pitfalls in evaluating multilingual automatic speech recognition (ASR) models, with a particular focus on Indic language scripts. We investigate the text normalization routine employed by leading ASR models, including OpenAI Whisper, Meta's MMS, Seamless, and Assembly AI's Conformer, and their unintended consequences on performance metrics. Our research reveals that current text normalization practices, while aiming to standardize ASR outputs for fair comparison, by removing inconsistencies such as variations in spelling, punctuation, and special characters, are fundamentally flawed when applied to Indic scripts. Through empirical analysis using text similarity scores and in-depth linguistic examination, we demonstrate that these flaws lead to artificially inflated performance metrics for Indic languages. We conclude by proposing a shift towards developing normalization routines that leverage native linguistic expertise, ensuring more robust and accurate evaluations of multilingual ASR models.
- Abstract(参考訳): 本稿では,多言語自動音声認識(ASR)モデルの評価における落とし穴について考察する。
本稿では,OpenAI Whisper,MetaのMMS,Seamless,Ambly AIのConformerなど,主要なASRモデルのテキスト正規化ルーチンと,パフォーマンス指標に対する意図しない結果について検討する。
本研究は,文字のスペルや句読点,特殊文字などの不整合を取り除き,ASR出力を公平な比較のために標準化することを目的としている現行のテキスト正規化の実践が,Indicスクリプトに適用した場合に根本的に欠陥があることを明らかにする。
テキスト類似度スコアと詳細な言語検査を用いた経験的分析により,これらの欠陥が,Indic言語の性能指標を人工的に膨らませることが実証された。
我々は,言語学の専門知識を活用し,多言語ASRモデルのより堅牢で正確な評価を確実にする正規化ルーチン開発へのシフトを提案する。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - A Reference-less Quality Metric for Automatic Speech Recognition via
Contrastive-Learning of a Multi-Language Model with Self-Supervision [0.20999222360659603]
本研究は,音声データセット上での異なるASRモデルの性能を比較するための基準のない品質指標を提案する。
ASR仮説の質を推定するために、事前訓練された言語モデル(LM)を自己教師付き学習方式でコントラスト学習により微調整する。
提案した基準レス計量は、すべての実験において最先端の多言語LMからWERスコアとそれらのランクとの相関をはるかに高める。
論文 参考訳(メタデータ) (2023-06-21T21:33:39Z) - Unsupervised Language agnostic WER Standardization [4.768240090076601]
本稿では,スペル正規化とセグメント正規化という2つのモジュールからなる自動WER正規化システムを提案する。
4つの言語にわたる35K発話に対するASRによる実験の結果、平均的なWERの減少率は13.28%となった。
論文 参考訳(メタデータ) (2023-03-09T05:50:54Z) - Diacritic Recognition Performance in Arabic ASR [2.28438857884398]
本稿では,アラビア語自動音声認識システムにおけるダイアクリティカルな音声認識性能について分析する。
現在の最先端のASRモデルは、その出力に完全なダイアライゼーションを生じさせない。
論文 参考訳(メタデータ) (2023-02-27T18:27:42Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。