論文の概要: Reducing the Prior Mismatch of Stochastic Differential Equations for
Diffusion-based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2302.14748v1
- Date: Tue, 28 Feb 2023 16:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:21:37.255935
- Title: Reducing the Prior Mismatch of Stochastic Differential Equations for
Diffusion-based Speech Enhancement
- Title(参考訳): 拡散に基づく音声強調のための確率微分方程式の事前ミスマッチの低減
- Authors: Bunlong Lay, Simon Welker, Julius Richter, Timo Gerkmann
- Abstract要約: 本稿では,ブラウン橋を基礎とした前方プロセスを提案し,そのようなプロセスが従来の拡散過程と比較してミスマッチの低減につながることを示す。
- 参考スコア(独自算出の注目度): 16.09633286837904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, score-based generative models have been successfully employed for
the task of speech enhancement. A stochastic differential equation is used to
model the iterative forward process, where at each step environmental noise and
white Gaussian noise are added to the clean speech signal. While in limit the
mean of the forward process ends at the noisy mixture, in practice it stops
earlier and thus only at an approximation of the noisy mixture. This results in
a discrepancy between the terminating distribution of the forward process and
the prior used for solving the reverse process at inference. In this paper, we
address this discrepancy. To this end, we propose a forward process based on a
Brownian bridge and show that such a process leads to a reduction of the
mismatch compared to previous diffusion processes. More importantly, we show
that our approach improves in objective metrics over the baseline process with
only half of the iteration steps and having one hyperparameter less to tune.
- Abstract(参考訳): 近年,音声強調のためのスコアベース生成モデルが成功している。
確率微分方程式を用いて反復進行過程をモデル化し、各ステップで環境雑音と白色ガウス雑音がクリーン音声信号に付加される。
限界では、フォワードプロセスの平均はノイズの混合物で終わるが、実際にはより早く停止し、ノイズの混合物の近似でのみ停止する。
これにより、前処理の終了分布と、推論時に逆プロセスを解くのに使われる前処理との差が生じる。
本稿では,この相違に対処する。
そこで本研究では,ブラウン橋を基礎とした前方プロセスを提案し,そのようなプロセスが従来の拡散過程と比較してミスマッチの低減につながることを示す。
さらに重要なことは、私たちのアプローチが、イテレーションステップの半分しかなく、チューニングするハイパーパラメータが1つも少なく、ベースラインプロセスよりも客観的なメトリクスが改善されていることを示しています。
関連論文リスト
- A Mixture-Based Framework for Guiding Diffusion Models [19.83064246586143]
デノナイジング拡散モデルはベイズ逆問題(英語版)の分野において大きな進歩をもたらした。
近年のアプローチでは、事前学習した拡散モデルを用いて、そのような問題を広範囲に解決している。
本研究はこれらの中間分布の新たな混合近似を提案する。
論文 参考訳(メタデータ) (2025-02-05T16:26:06Z) - Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。
高品質な出力を生成するには、多くの離散化ステップが必要です。
クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:59:03Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Improving Diffusion Inverse Problem Solving with Decoupled Noise Annealing [84.97865583302244]
Decoupled Annealing Posterior Smpling (DAPS) と呼ばれる新しい手法を提案する。
DAPSは、新しいノイズアニール法に依存している。
DAPSは複数の画像復元作業において,サンプル品質と安定性を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:23Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities [91.46841922915418]
本稿では,一階変分法の理論解析のための統一的アプローチを提案する。
提案手法は非線形勾配問題とモンテカルロの強い問題の両方をカバーする。
凸法最適化問題の場合、オラクルに強く一致するような境界を与える。
論文 参考訳(メタデータ) (2023-05-25T11:11:31Z) - Fast and efficient speech enhancement with variational autoencoders [0.0]
変分オートエンコーダに基づく教師なし音声強調は、一般的な教師付き手法と比較して有望な性能を示した。
本稿では,複数のサンプル列を生成するランゲヴィン力学に基づく新しい手法を提案する。
提案手法は, 計算効率と品質向上を効果的に両立させ, 既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T09:52:13Z) - Diffusion Posterior Sampling for General Noisy Inverse Problems [50.873313752797124]
我々は、後方サンプリングの近似により、雑音(非線形)逆問題に対処するために拡散解法を拡張した。
本手法は,拡散モデルが様々な計測ノイズ統計を組み込むことができることを示す。
論文 参考訳(メタデータ) (2022-09-29T11:12:27Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。