論文の概要: Single and Few-step Diffusion for Generative Speech Enhancement
- arxiv url: http://arxiv.org/abs/2309.09677v2
- Date: Mon, 15 Jan 2024 14:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:34:31.034265
- Title: Single and Few-step Diffusion for Generative Speech Enhancement
- Title(参考訳): 発声音声強調のための単一および少数区間の拡散
- Authors: Bunlong Lay, Jean-Marie Lemercier, Julius Richter, Timo Gerkmann
- Abstract要約: 拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
- 参考スコア(独自算出の注目度): 18.487296462927034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have shown promising results in speech enhancement, using a
task-adapted diffusion process for the conditional generation of clean speech
given a noisy mixture. However, at test time, the neural network used for score
estimation is called multiple times to solve the iterative reverse process.
This results in a slow inference process and causes discretization errors that
accumulate over the sampling trajectory. In this paper, we address these
limitations through a two-stage training approach. In the first stage, we train
the diffusion model the usual way using the generative denoising score matching
loss. In the second stage, we compute the enhanced signal by solving the
reverse process and compare the resulting estimate to the clean speech target
using a predictive loss. We show that using this second training stage enables
achieving the same performance as the baseline model using only 5 function
evaluations instead of 60 function evaluations. While the performance of usual
generative diffusion algorithms drops dramatically when lowering the number of
function evaluations (NFEs) to obtain single-step diffusion, we show that our
proposed method keeps a steady performance and therefore largely outperforms
the diffusion baseline in this setting and also generalizes better than its
predictive counterpart.
- Abstract(参考訳): 拡散モデルでは,雑音混合したクリーン音声の条件生成にタスク適応拡散法を用いて,音声強調の有望な結果を示した。
しかしながら、テスト時にスコア推定に使用されるニューラルネットワークは、反復逆プロセスを解くために複数回呼び出される。
これにより、推論プロセスが遅くなり、サンプリング軌道上に蓄積される離散化エラーが発生する。
本稿では,これらの制約を2段階のトレーニングアプローチで解決する。
第1段階では,生成的発声スコアマッチング損失を用いて拡散モデルを通常の方法で学習する。
第2段階では、逆過程を解くことで強化された信号を計算し、予測損失を用いて得られた推定結果をクリーン音声目標と比較する。
この第2のトレーニングステージを使用することで,60関数ではなく5関数評価のみを用いて,ベースラインモデルと同じ性能を実現することができることを示す。
関数評価数(nfes)を下げて一段階の拡散を得ると、通常の生成拡散アルゴリズムの性能は劇的に低下するが、本手法は定常的な性能を保ち、したがってその拡散ベースラインを大きく上回っており、予測値よりも一般化する。
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer [3.2634122554914002]
拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。
本稿では,目標がプロセスの進行時間ステップの異なる出力となる設定を提案する。
提案手法は競争時間帯に高忠実度音声を生成することを示す。
論文 参考訳(メタデータ) (2023-09-18T10:35:27Z) - Can Diffusion Model Achieve Better Performance in Text Generation?
Bridging the Gap between Training and Inference! [14.979893207094221]
拡散モデルは、離散テキストを連続空間にマッピングすることで、テキスト生成タスクにうまく適応している。
トレーニングと推論の間には、推論中に前処理が欠如しているため、無視できないギャップがある。
本稿では、上記のギャップを埋める単純な方法として、Distance Penalty と Adaptive Decay Sampling を提案する。
論文 参考訳(メタデータ) (2023-05-08T05:32:22Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - A Variational Perspective on Diffusion-Based Generative Models and Score
Matching [8.93483643820767]
連続時間生成拡散の確率推定のための変分フレームワークを導出する。
本研究は,プラグイン逆SDEの可能性の低い境界を最大化することと,スコアマッチング損失の最小化が等価であることを示す。
論文 参考訳(メタデータ) (2021-06-05T05:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。