論文の概要: A Comparative Evaluation of Deep Learning Models for Speech Enhancement in Real-World Noisy Environments
- arxiv url: http://arxiv.org/abs/2506.15000v1
- Date: Tue, 17 Jun 2025 22:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.495102
- Title: A Comparative Evaluation of Deep Learning Models for Speech Enhancement in Real-World Noisy Environments
- Title(参考訳): 実環境における音声強調のためのディープラーニングモデルの比較評価
- Authors: Md Jahangir Alam Khondkar, Ajan Ahmed, Masudul Haider Imtiaz, Stephanie Schuckers,
- Abstract要約: 本研究では、SpEAR、VPQAD、Clarksonといった多様なデータセット上で、Wave-U-Net、CMGAN、U-Netの3つの最先端モデルをベンチマークする。
評価の結果、U-NetはSNRが+71.96%、VPQADが+64.83%、クラークソンが+364.2%、高いノイズ抑制を実現していることがわかった。
CMGANは知覚品質に優れており、SpEARでは4.04点、VPQADでは1.46点のPESQスコアを達成している。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement, particularly denoising, is vital in improving the intelligibility and quality of speech signals for real-world applications, especially in noisy environments. While prior research has introduced various deep learning models for this purpose, many struggle to balance noise suppression, perceptual quality, and speaker-specific feature preservation, leaving a critical research gap in their comparative performance evaluation. This study benchmarks three state-of-the-art models Wave-U-Net, CMGAN, and U-Net, on diverse datasets such as SpEAR, VPQAD, and Clarkson datasets. These models were chosen due to their relevance in the literature and code accessibility. The evaluation reveals that U-Net achieves high noise suppression with SNR improvements of +71.96% on SpEAR, +64.83% on VPQAD, and +364.2% on the Clarkson dataset. CMGAN outperforms in perceptual quality, attaining the highest PESQ scores of 4.04 on SpEAR and 1.46 on VPQAD, making it well-suited for applications prioritizing natural and intelligible speech. Wave-U-Net balances these attributes with improvements in speaker-specific feature retention, evidenced by VeriSpeak score gains of +10.84% on SpEAR and +27.38% on VPQAD. This research indicates how advanced methods can optimize trade-offs between noise suppression, perceptual quality, and speaker recognition. The findings may contribute to advancing voice biometrics, forensic audio analysis, telecommunication, and speaker verification in challenging acoustic conditions.
- Abstract(参考訳): 音声強調、特に雑音化は、特に雑音の多い環境において、現実世界のアプリケーションにおける音声信号の信頼性と品質を向上させるために不可欠である。
先行研究は様々なディープラーニングモデルを導入しているが、騒音抑制、知覚的品質、話者固有の特徴保存のバランスをとるのに苦労し、比較性能評価において重要な研究ギャップを残している。
本研究では,Wave-U-Net,CMGAN,U-Netの3つの最先端モデルを,SpEAR,VPQAD,Clarksonのデータセットなどさまざまなデータセット上でベンチマークする。
これらのモデルは、文学とコードアクセシビリティの関連性から選ばれた。
評価の結果、U-NetはSNRの改善により、SpEARでは+71.96%、VPQADでは+64.83%、クラークソンデータセットでは+364.2%という高いノイズ抑制を実現していることがわかった。
CMGANは知覚品質に優れており、SpEARでは4.04点、VPQADでは1.46点のPESQスコアを達成している。
Wave-U-Netはこれらの特性と話者固有の特徴保持の改善のバランスを保ち、VeriSpeakのスコアはSpEARで+10.84%、VPQADで+27.38%だった。
本研究では,ノイズ抑圧,知覚品質,話者認識のトレードオフを最適化する方法を提案する。
この知見は, 音声生体計測の進歩, 法医学的音声分析, 通信, 話者検証に寄与する可能性がある。
関連論文リスト
- Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations [39.31175048498422]
本研究では,声質評価ネットワーク (VOQANet) を提案する。
また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。
以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
論文 参考訳(メタデータ) (2025-05-27T15:48:17Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids [30.305000305766193]
本稿では,難聴者を対象とした非侵襲的ディープラーニングに基づく音質評価モデルであるHAAQI-Netを紹介する。
HAAQIのスコアは、音楽のオーディオクリップや聴覚障害パターンから直接予測できる。
論文 参考訳(メタデータ) (2024-01-02T10:55:01Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - A Data-Driven Investigation of Noise-Adaptive Utterance Generation with
Linguistic Modification [25.082714256583422]
騒々しい環境では、スピーチは人間にとって理解しにくい。
通常の聴覚を持つ母語話者が知覚するバブルノイズにおける900パラフレーズのデータセットを作成する。
その結果, SNR -5 dBでは, パラフレーズの選択が33%向上することが判明した。
論文 参考訳(メタデータ) (2022-10-19T02:20:17Z) - MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality
Assessment [12.144133923535714]
本稿では,非侵入的多次元音声品質指標であるMOSRAについて述べる。
室内音響パラメータと音声品質の総合平均評価スコア(MOS)を同時に予測することができる。
また,この共同学習手法により,室内音響のブラインド推定が向上することを示す。
論文 参考訳(メタデータ) (2022-04-04T09:38:15Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。