論文の概要: An Analysis of the Variance of Diffusion-based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2402.00811v2
- Date: Thu, 13 Jun 2024 16:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:55:19.898900
- Title: An Analysis of the Variance of Diffusion-based Speech Enhancement
- Title(参考訳): 拡散に基づく音声強調のばらつきの分析
- Authors: Bunlong Lay, Timo Gerkmann,
- Abstract要約: 分散のスケールが音声強調性能の主要なパラメータであることを示す。
より大きな分散はノイズ減衰を増大させ、計算フットプリントを低減できることを示す。
- 参考スコア(独自算出の注目度): 15.736484513462973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models proved to be powerful models for generative speech enhancement. In recent SGMSE+ approaches, training involves a stochastic differential equation for the diffusion process, adding both Gaussian and environmental noise to the clean speech signal gradually. The speech enhancement performance varies depending on the choice of the stochastic differential equation that controls the evolution of the mean and the variance along the diffusion processes when adding environmental and Gaussian noise. In this work, we highlight that the scale of the variance is a dominant parameter for speech enhancement performance and show that it controls the tradeoff between noise attenuation and speech distortions. More concretely, we show that a larger variance increases the noise attenuation and allows for reducing the computational footprint, as fewer function evaluations for generating the estimate are required
- Abstract(参考訳): 拡散モデルは、生成的音声強調のための強力なモデルであることが証明された。
最近のSGMSE+アプローチでは、学習は拡散過程の確率微分方程式を伴い、ガウスノイズと環境ノイズの両方をクリーン音声信号に徐々に加える。
音声強調性能は,環境雑音やガウス雑音を加える際の拡散過程に沿った平均と分散の進化を制御する確率微分方程式の選択によって異なる。
本研究では,雑音減衰と音声歪みのトレードオフを制御していることを示す。
より具体的には、より大きな分散がノイズ減衰を増大させ、計算フットプリントを削減できることが示される。
関連論文リスト
- Diffusion Conditional Expectation Model for Efficient and Robust Target
Speech Extraction [73.43534824551236]
ターゲット音声抽出(TSE)のための条件拡散予測モデル(DCEM)という効率的な生成手法を提案する。
ノイズとクリーンな条件の両方で、マルチとシングルスピーカーのシナリオを処理できる。
本手法は,従来の手法よりも侵入的指標と非侵入的指標の両方で優れていた。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Diffusion-GAN: Training GANs with Diffusion [135.24433011977874]
GAN(Generative Adversarial Network)は、安定してトレーニングすることが難しい。
フォワード拡散チェーンを利用してインスタンスノイズを生成する新しいGANフレームワークであるDiffusion-GANを提案する。
我々は,Diffusion-GANにより,最先端のGANよりも高い安定性とデータ効率で,よりリアルな画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-06-05T20:45:01Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Denoising Diffusion Gamma Models [91.22679787578438]
Denoising Diffusion Gamma Model (DDGM)を導入し、ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。
提案手法は,ガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。
論文 参考訳(メタデータ) (2021-10-10T10:46:31Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Non Gaussian Denoising Diffusion Models [91.22679787578438]
ガンマ分布からのノイズは、画像および音声生成のための改善された結果をもたらすことを示す。
また,拡散過程におけるガウス雑音の混合を用いることで,単一分布に基づく拡散過程における性能が向上することを示す。
論文 参考訳(メタデータ) (2021-06-14T16:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。