Fugu-MT 論文翻訳(概要): What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations

論文の概要: What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations

arxiv url: http://arxiv.org/abs/2409.02449v4
Date: Sat, 09 Nov 2024 06:37:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.879911
Title: What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations
Title（参考訳）: 正規化で失うものは何か? 多言語ASRモデル評価における落とし穴の探索
Authors: Kavya Manohar, Leena G Pillai, Elizabeth Sherly,
Abstract要約: 本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper explores the pitfalls in evaluating multilingual automatic speech recognition (ASR) models, with a particular focus on Indic language scripts. We investigate the text normalization routine employed by leading ASR models, including OpenAI Whisper, Meta's MMS, Seamless, and Assembly AI's Conformer, and their unintended consequences on performance metrics. Our research reveals that current text normalization practices, while aiming to standardize ASR outputs for fair comparison, by removing inconsistencies such as variations in spelling, punctuation, and special characters, are fundamentally flawed when applied to Indic scripts. Through empirical analysis using text similarity scores and in-depth linguistic examination, we demonstrate that these flaws lead to artificially improved performance metrics for Indic languages. We conclude by proposing a shift towards developing text normalization routines that leverage native linguistic expertise, ensuring more robust and accurate evaluations of multilingual ASR models.
Abstract（参考訳）: 本稿では,多言語自動音声認識(ASR)モデルの評価における落とし穴について考察する。本稿では,OpenAI Whisper,MetaのMMS,Seamless,Ambly AIのConformerなど,主要なASRモデルのテキスト正規化ルーチンと,パフォーマンス指標に対する意図しない結果について検討する。本研究は,文字のスペルや句読点,特殊文字などの不整合を取り除き,ASR出力を公平な比較のために標準化することを目的としている現行のテキスト正規化の実践が,Indicスクリプトに適用した場合に根本的に欠陥があることを明らかにする。テキスト類似度スコアと詳細な言語検査を用いた経験的分析により、これらの欠陥がIndic言語の性能指標を人工的に改善することを示した。我々は、母国語学の専門知識を活用し、多言語ASRモデルのより堅牢で正確な評価を確実にするテキスト正規化ルーチン開発へのシフトを提案する。

関連論文リスト

I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations [9.275967682881944]
本稿では,大言語モデルが言語シボレスにどう反応するかを評価するための総合的なベンチマークを提案する。等価な内容の質にもかかわらず,LLMが言語パターン,特にヘッジ言語を体系的にペナルティ化する方法を実証する。我々は,複数の言語的側面に沿ったアプローチを検証し,ヘッジドレスポンスが平均25.6%低い評価を受けることを示した。
論文参考訳（メタデータ） (2025-08-06T23:51:03Z)
HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文参考訳（メタデータ） (2025-08-03T15:53:01Z)
PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems [0.0]
本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-05-27T14:14:55Z)
Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文参考訳（メタデータ） (2025-05-25T08:37:55Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Style-agnostic evaluation of ASR using multiple reference transcripts [0.3066137405373616]
我々は、ASRシステムのスタイルに依存しない評価を行うことにより、これらの違いのいくつかを軽減することを試みる。既存のWERレポートは、最先端のASRシステムによる競合エラーの数を大幅に過大評価している可能性が高い。
論文参考訳（メタデータ） (2024-12-10T21:47:15Z)
Advocating Character Error Rate for Multilingual ASR Evaluation [1.2597747768235845]
本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
論文参考訳（メタデータ） (2024-10-09T19:57:07Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
LibriSpeech-PC: Benchmark for Evaluation of Punctuation and Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文参考訳（メタデータ） (2023-10-04T16:23:37Z)
Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文参考訳（メタデータ） (2023-09-29T14:18:59Z)
A Reference-less Quality Metric for Automatic Speech Recognition via Contrastive-Learning of a Multi-Language Model with Self-Supervision [0.20999222360659603]
本研究は,音声データセット上での異なるASRモデルの性能を比較するための基準のない品質指標を提案する。 ASR仮説の質を推定するために、事前訓練された言語モデル(LM)を自己教師付き学習方式でコントラスト学習により微調整する。提案した基準レス計量は、すべての実験において最先端の多言語LMからWERスコアとそれらのランクとの相関をはるかに高める。
論文参考訳（メタデータ） (2023-06-21T21:33:39Z)
Diacritic Recognition Performance in Arabic ASR [2.28438857884398]
本稿では,アラビア語自動音声認識システムにおけるダイアクリティカルな音声認識性能について分析する。現在の最先端のASRモデルは、その出力に完全なダイアライゼーションを生じさせない。
論文参考訳（メタデータ） (2023-02-27T18:27:42Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文参考訳（メタデータ） (2021-06-02T19:58:20Z)
Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文参考訳（メタデータ） (2021-03-30T18:02:58Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。