論文の概要: Noise-aware Speech Enhancement using Diffusion Probabilistic Model
- arxiv url: http://arxiv.org/abs/2307.08029v1
- Date: Sun, 16 Jul 2023 12:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:14:06.848525
- Title: Noise-aware Speech Enhancement using Diffusion Probabilistic Model
- Title(参考訳): 拡散確率モデルを用いた雑音対応音声強調
- Authors: Yuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng
- Abstract要約: 拡散モデルにおける逆過程を導出する雑音固有情報を抽出する雑音認識音声強調(NASE)手法を提案する。
提案したNASEは,任意の拡散SEモデルに一般化可能なプラグアンドプレイモジュールである。
- 参考スコア(独自算出の注目度): 23.042478625584653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advances of diffusion model, generative speech enhancement (SE)
has attracted a surge of research interest due to its great potential for
unseen testing noises. However, existing efforts mainly focus on inherent
properties of clean speech for inference, underexploiting the varying noise
information in real-world conditions. In this paper, we propose a noise-aware
speech enhancement (NASE) approach that extracts noise-specific information to
guide the reverse process in diffusion model. Specifically, we design a noise
classification (NC) model to produce acoustic embedding as a noise conditioner
for guiding the reverse denoising process. Meanwhile, a multi-task learning
scheme is devised to jointly optimize SE and NC tasks, in order to enhance the
noise specificity of extracted noise conditioner. Our proposed NASE is shown to
be a plug-and-play module that can be generalized to any diffusion SE models.
Experiment evidence on VoiceBank-DEMAND dataset shows that NASE achieves
significant improvement over multiple mainstream diffusion SE models,
especially on unseen testing noises.
- Abstract(参考訳): 最近の拡散モデルの進歩により、生成的音声強調(se)は、ノイズを検知しない可能性が非常に高いため、研究の関心を集めている。
しかし,既存の研究は,実環境下での様々なノイズ情報を過小評価し,クリーン音声の固有性に着目している。
本稿では,拡散モデルの逆過程を導くために,雑音固有情報を抽出する雑音認識音声強調(nase)手法を提案する。
具体的には,雑音分類(nc)モデルの設計を行い,逆発振過程を導出するためのノイズコンディショナとして音響埋め込みを行う。
一方,seタスクとncタスクを協調して最適化し,抽出したノイズコンディショナーの雑音特異性を高めるマルチタスク学習手法が考案された。
提案するnaseは任意の拡散seモデルに一般化可能なプラグアンドプレイモジュールであることが示されている。
voicebank-demandデータセットの実験的な証拠は、naseが複数の主流の拡散seモデル、特に目に見えないテストノイズに対して大きな改善を達成していることを示している。
関連論文リスト
- Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Unsupervised speech enhancement with deep dynamical generative speech
and noise models [26.051535142743166]
本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。
本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
論文 参考訳(メタデータ) (2023-06-13T14:52:35Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。