論文の概要: Frequency-Weighted Training Losses for Phoneme-Level DNN-based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2506.18714v1
- Date: Mon, 23 Jun 2025 14:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.033266
- Title: Frequency-Weighted Training Losses for Phoneme-Level DNN-based Speech Enhancement
- Title(参考訳): 音素レベルDNN音声強調のための周波数重み付き訓練損失
- Authors: Nasser-Eddine Monir, Paul Magron, Romain Serizel,
- Abstract要約: 時間周波数領域で定式化され、周波数依存重み付け方式によって変調されるSDR損失の知覚的インフォームド変種を提案する。
これらの損失を利用して、FaSNetマルチチャネル音声強調モデルを訓練する。
実験の結果、SDRなどの標準指標はわずかに改善されているものの、知覚周波数重み付けの指標の方が大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 15.332506773218315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning have significantly improved multichannel speech enhancement algorithms, yet conventional training loss functions such as the scale-invariant signal-to-distortion ratio (SDR) may fail to preserve fine-grained spectral cues essential for phoneme intelligibility. In this work, we propose perceptually-informed variants of the SDR loss, formulated in the time-frequency domain and modulated by frequency-dependent weighting schemes. These weights are designed to emphasize time-frequency regions where speech is prominent or where the interfering noise is particularly strong. We investigate both fixed and adaptive strategies, including ANSI band-importance weights, spectral magnitude-based weighting, and dynamic weighting based on the relative amount of speech and noise. We train the FaSNet multichannel speech enhancement model using these various losses. Experimental results show that while standard metrics such as the SDR are only marginally improved, their perceptual frequency-weighted counterparts exhibit a more substantial improvement. Besides, spectral and phoneme-level analysis indicates better consonant reconstruction, which points to a better preservation of certain acoustic cues.
- Abstract(参考訳): 近年の深層学習の進歩は多チャンネル音声強調アルゴリズムを著しく改善しているが、スケール不変信号-歪み比 (SDR) のような従来の訓練損失関数は、音素の知覚に不可欠な微細なスペクトル的手がかりを保存できない可能性がある。
本研究では、時間周波数領域で定式化され、周波数依存重み付け方式で変調されたSDR損失の知覚的インフォームド変種を提案する。
これらの重み付けは、音声が顕著な時間周波数領域や、特に干渉雑音が強い時間周波数領域を強調するように設計されている。
本稿では、ANSI帯域重み付け、スペクトル等級に基づく重み付け、および音声と雑音の相対量に基づく動的重み付けを含む、固定的および適応的な戦略について検討する。
これらの損失を利用して、FaSNetマルチチャネル音声強調モデルを訓練する。
実験の結果、SDRなどの標準指標はわずかに改善されているものの、知覚周波数重み付けの指標の方が大幅に改善されていることがわかった。
さらに、スペクトルと音素レベルの分析により、子音の再現性が向上し、特定の音響的手がかりの保存性が向上したことを示している。
関連論文リスト
- FreqMoE: Dynamic Frequency Enhancement for Neural PDE Solvers [33.5401363681771]
本稿では,低周波成分に対する高周波信号の依存性を利用した,効率的かつプログレッシブなトレーニングフレームワークFreqMoEを提案する。
正規格子PDEと不規則格子PDEの両方の実験により、FreqMoEは16.6%の精度向上を達成した。
論文 参考訳(メタデータ) (2025-05-11T06:06:32Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Hyperspectral Image Denoising via Self-Modulating Convolutional Neural
Networks [15.700048595212051]
相関スペクトルと空間情報を利用した自己変調畳み込みニューラルネットワークを提案する。
モデルの中心には新しいブロックがあり、隣り合うスペクトルデータに基づいて、ネットワークが適応的に特徴を変換することができる。
合成データと実データの両方の実験解析により,提案したSM-CNNは,他の最先端HSI復調法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-15T06:57:43Z) - Incremental Spatial and Spectral Learning of Neural Operators for
Solving Large-Scale PDEs [86.35471039808023]
Incrmental Fourier Neural Operator (iFNO)を導入し、モデルが使用する周波数モードの数を徐々に増加させる。
iFNOは、各種データセット間の一般化性能を維持したり改善したりしながら、トレーニング時間を短縮する。
提案手法は,既存のフーリエニューラル演算子に比べて20%少ない周波数モードを用いて,10%低いテスト誤差を示すとともに,30%高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2022-11-28T09:57:15Z) - Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations [5.4878772986187565]
本稿では、PT-FSEと呼ばれる、知覚的モチベーションのある最適化と二重変換を備えたサブバンドベース音声強調システムを提案する。
提案モデルでは背骨よりも大幅に改善されているが,SOTAよりも27%小さく,現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T02:33:40Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization [43.15288441772729]
ネットワークの騒音は、ノイズの多い音声からマッピングを学習し、それらを直接掃除する。
既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。
本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
論文 参考訳(メタデータ) (2019-01-26T02:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。