論文の概要: When De-noising Hurts: A Systematic Study of Speech Enhancement Effects on Modern Medical ASR Systems
- arxiv url: http://arxiv.org/abs/2512.17562v1
- Date: Fri, 19 Dec 2025 13:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.400746
- Title: When De-noising Hurts: A Systematic Study of Speech Enhancement Effects on Modern Medical ASR Systems
- Title(参考訳): 音声強調が現代医療ASRシステムに与える影響に関する体系的研究
- Authors: Sujal Chondhekar, Vasanth Murukuri, Rushabh Vasani, Sanika Goyal, Rajshree Badami, Anushree Rana, Sanjana SN, Karthik Pandia, Sulabh Katiyar, Neha Jagadeesh, Sankalp Gulati,
- Abstract要約: 音声強調法は,雑音環境下での自動音声認識(ASR)の性能を向上させることが一般的である。
我々は,4つの最先端ASRシステム上でのMetricGAN+Voicebankの分類評価を行った。
音声強調前処理は,全ての雑音条件およびモデルにおいてASR性能を低下させる。
- 参考スコア(独自算出の注目度): 0.6158894274166716
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech enhancement methods are commonly believed to improve the performance of automatic speech recognition (ASR) in noisy environments. However, the effectiveness of these techniques cannot be taken for granted in the case of modern large-scale ASR models trained on diverse, noisy data. We present a systematic evaluation of MetricGAN-plus-voicebank denoising on four state-of-the-art ASR systems: OpenAI Whisper, NVIDIA Parakeet, Google Gemini Flash 2.0, Parrotlet-a using 500 medical speech recordings under nine noise conditions. ASR performance is measured using semantic WER (semWER), a normalized word error rate (WER) metric accounting for domain-specific normalizations. Our results reveal a counterintuitive finding: speech enhancement preprocessing degrades ASR performance across all noise conditions and models. Original noisy audio achieves lower semWER than enhanced audio in all 40 tested configurations (4 models x 10 conditions), with degradations ranging from 1.1% to 46.6% absolute semWER increase. These findings suggest that modern ASR models possess sufficient internal noise robustness and that traditional speech enhancement may remove acoustic features critical for ASR. For practitioners deploying medical scribe systems in noisy clinical environments, our results indicate that preprocessing audio with noise reduction techniques might not just be computationally wasteful but also be potentially harmful to the transcription accuracy.
- Abstract(参考訳): 音声強調法は,雑音環境下での自動音声認識(ASR)の性能を向上させることが一般的である。
しかし、これらの手法の有効性は、多様なノイズの多いデータに基づいて訓練された現代の大規模ASRモデルの場合、当然と言えない。
我々は,現在最先端のASRシステムであるOpenAI Whisper,NVIDIA Parakeet,Google Gemini Flash 2.0,Parrotlet-aの4種類のMetricGAN+Voicebankを,9つの雑音条件下で500の医療音声記録を用いて評価した。
ASR性能は、ドメイン固有の正規化の基準となる正規化単語誤り率(WER)の指標であるセマンティックWER(semWER)を用いて測定される。
音声強調前処理は,全ての雑音条件およびモデルにおいてASR性能を低下させる。
元のノイズの多いオーディオは、40の試験されたすべての構成(4モデル x 10 条件)で強化されたオーディオよりも低いセムWERを実現しており、劣化は 1.1% から 46.6% まで増大している。
これらの結果から,現代のASRモデルは十分な内部雑音耐性を有しており,従来の音声強調はASRにとって重要な音響的特徴を除去する可能性が示唆された。
医療用書記システムをノイズの多い臨床環境に展開する実践者に対しては, ノイズ低減技術を用いた事前処理は, 計算的に無駄なだけでなく, 転写精度に悪影響を及ぼす可能性が示唆された。
関連論文リスト
- Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Feature Fusion [1.376408511310322]
音声品質と知性はノイズの多い環境で著しく劣化する。
本稿では,単一チャネル雑音抑圧問題に対処するトランスフォーマーに基づく新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-14T19:27:42Z) - Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - On the Effectiveness of ASR Representations in Real-world Noisy Speech Emotion Recognition [23.812838405442953]
音声の感情認識(NSER)を効果的に行う試みを提案する。
ノイズキャンバス特徴抽出器として自動音声認識(ASR)モデルを採用し,雑音の多い音声の非音声情報を除去する。
実験の結果,提案手法は従来のノイズ低減法に比べてNSER性能が向上し,2)自己教師あり学習手法よりも優れ,3)ASR文字起こしや音声音声の真理書き起こしによるテキストベースアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T05:45:55Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。