論文の概要: When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper
- arxiv url: http://arxiv.org/abs/2603.04710v1
- Date: Thu, 05 Mar 2026 01:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.019916
- Title: When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper
- Title(参考訳): ヒンダーを鳴らすとき:SAM-AudioとWhisperによるゼロショットASRの再考
- Authors: Akif Islam, Raufun Nahar, Md. Ekramul Hamid,
- Abstract要約: 本稿では,メタAIによるSegment Anything Model Audioの効果について,Whisperを用いたゼロショット文字起こしのための前処理ステップとして,系統的研究を行った。
一般的な直観とは対照的に,SAM-AudioプリプロセッシングはASR性能を低下させる。
人間の聴取者にとって知覚的にクリーンな音声は、必ずしも機械認識にとって堅牢ではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in automatic speech recognition (ASR) and speech enhancement have led to a widespread assumption that improving perceptual audio quality should directly benefit recognition accuracy. In this work, we rigorously examine whether this assumption holds for modern zero-shot ASR systems. We present a systematic empirical study on the impact of Segment Anything Model Audio by Meta AI, a recent foundation-scale speech enhancement model proposed by Meta, when used as a preprocessing step for zero-shot transcription with Whisper. Experiments are conducted across multiple Whisper model variants and two linguistically distinct noisy speech datasets: a real-world Bengali YouTube corpus and a publicly available English noisy dataset. Contrary to common intuition, our results show that SAM-Audio preprocessing consistently degrades ASR performance, increasing both Word Error Rate (WER) and Character Error Rate (CER) compared to raw noisy speech, despite substantial improvements in signal-level quality. Objective Peak Signal-to-Noise Ratio analysis on the English dataset confirms that SAM-Audio produces acoustically cleaner signals, yet this improvement fails to translate into recognition gains. Therefore, we conducted a detailed utterance-level analysis to understand this counterintuitive result. We found that the recognition degradation is a systematic issue affecting the majority of the audio, not just isolated outliers, and that the errors worsen as the Whisper model size increases. These findings expose a fundamental mismatch: audio that is perceptually cleaner to human listeners is not necessarily robust for machine recognition. This highlights the risk of blindly applying state-of-the-art denoising as a preprocessing step in zero-shot ASR pipelines.
- Abstract(参考訳): 近年の音声認識(ASR)と音声強調の進歩は、知覚音質の向上が認識精度に直接利益をもたらすと広く仮定されている。
本研究では、この仮定が現代のゼロショットASRシステムに当てはまるかどうかを厳密に検討する。
本稿では,Meta AIによるSegment Anything Model Audioの効果に関する系統的研究を行い,Whisperによるゼロショット文字起こしの事前処理ステップとして,Metaが最近提案した基盤規模音声強調モデルについて述べる。
実験は、複数のWhisperモデル変異体と、言語的に異なる2つのノイズの多い音声データセット(実世界のBengali YouTubeコーパスと、公開されている英語のノイズのあるデータセット)で実施されている。
一般的な直感とは対照的に,SAM-Audioプリプロセッシングは,信号レベルの品質が大幅に向上したにもかかわらず,単語誤り率 (WER) と文字誤り率 (CER) の双方を増大させ,ASR性能を常に低下させることを示した。
英語データセットの客観的ピーク信号対雑音比分析はSAM-Audioが音響的にクリーンな信号を生成することを確認したが、この改善は認識ゲインに変換できない。
そこで我々は,この反直感的な結果を理解するために,詳細な発話レベル分析を行った。
音声認識の劣化は、孤立した外れ値だけでなく、音声の大部分に影響を及ぼす体系的な問題であり、Whisperモデルのサイズが大きくなるにつれてエラーが悪化することを発見した。
人間の聴取者にとって知覚的にクリーンな音声は、必ずしも機械認識にとって堅牢ではない。
これは、ゼロショットのASRパイプラインにおける前処理ステップとして最先端のデノイングを盲目的に適用するリスクを強調している。
関連論文リスト
- Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。
さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文 参考訳(メタデータ) (2026-02-24T14:46:54Z) - When De-noising Hurts: A Systematic Study of Speech Enhancement Effects on Modern Medical ASR Systems [0.6158894274166716]
音声強調法は,雑音環境下での自動音声認識(ASR)の性能を向上させることが一般的である。
我々は,4つの最先端ASRシステム上でのMetricGAN+Voicebankの分類評価を行った。
音声強調前処理は,全ての雑音条件およびモデルにおいてASR性能を低下させる。
論文 参考訳(メタデータ) (2025-12-19T13:32:19Z) - Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。