Fugu-MT 論文翻訳(概要): Single and Few-step Diffusion for Generative Speech Enhancement

論文の概要: Single and Few-step Diffusion for Generative Speech Enhancement

arxiv url: http://arxiv.org/abs/2309.09677v1
Date: Mon, 18 Sep 2023 11:30:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 13:50:15.349896
Title: Single and Few-step Diffusion for Generative Speech Enhancement
Title（参考訳）: 発声音声強調のための単一および少数区間の拡散
Authors: Bunlong Lay, Jean-Marie Lemercier, Julius Richter, Timo Gerkmann
Abstract要約: 拡散モデルは音声強調において有望な結果を示した。本稿では,2段階の学習手法を用いて,これらの制約に対処する。提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
参考スコア（独自算出の注目度）: 18.487296462927034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have shown promising results in speech enhancement, using a task-adapted diffusion process for the conditional generation of clean speech given a noisy mixture. However, at test time, the neural network used for score estimation is called multiple times to solve the iterative reverse process. This results in a slow inference process and causes discretization errors that accumulate over the sampling trajectory. In this paper, we address these limitations through a two-stage training approach. In the first stage, we train the diffusion model the usual way using the generative denoising score matching loss. In the second stage, we compute the enhanced signal by solving the reverse process and compare the resulting estimate to the clean speech target using a predictive loss. We show that using this second training stage enables achieving the same performance as the baseline model using only 5 function evaluations instead of 60 function evaluations. While the performance of usual generative diffusion algorithms drops dramatically when lowering the number of function evaluations (NFEs) to obtain single-step diffusion, we show that our proposed method keeps a steady performance and therefore largely outperforms the diffusion baseline in this setting and also generalizes better than its predictive counterpart.
Abstract（参考訳）: 拡散モデルでは,雑音混合したクリーン音声の条件生成にタスク適応拡散法を用いて,音声強調の有望な結果を示した。しかしながら、テスト時にスコア推定に使用されるニューラルネットワークは、反復逆プロセスを解くために複数回呼び出される。これにより、推論プロセスが遅くなり、サンプリング軌道上に蓄積される離散化エラーが発生する。本稿では,これらの制約を2段階のトレーニングアプローチで解決する。第1段階では,生成的発声スコアマッチング損失を用いて拡散モデルを通常の方法で学習する。第2段階では、逆過程を解くことで強化された信号を計算し、予測損失を用いて得られた推定結果をクリーン音声目標と比較する。この第2のトレーニングステージを使用することで,60関数ではなく5関数評価のみを用いて,ベースラインモデルと同じ性能を実現することができることを示す。関数評価数(nfes)を下げて一段階の拡散を得ると、通常の生成拡散アルゴリズムの性能は劇的に低下するが、本手法は定常的な性能を保ち、したがってその拡散ベースラインを大きく上回っており、予測値よりも一般化する。

関連論文リスト

Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [62.640128548633946]
離散拡散モデルに対する粒子ギブズサンプリングに基づく新しい推論時間スケーリング手法を提案する。提案手法は,報酬誘導テキスト生成タスクにおける事前推定時間戦略を常に上回る。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文参考訳（メタデータ） (2025-06-11T06:01:39Z)
AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文参考訳（メタデータ） (2025-04-13T08:29:58Z)
Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification [75.09791002021947]
既存の浄化法は,前向き拡散過程を通じて一定のノイズを発生させ,その後に逆の処理を行い,クリーンな例を回復させることによって,対向的摂動を妨害することを目的としている。この方法は、前処理の均一な操作が、対向的摂動と闘いながら通常のピクセルを損なうため、根本的な欠陥がある。ニューラルネットワークの解釈可能性に基づく異種浄化戦略を提案する。本手法は,被写体モデルが注目する特定の画素に対して高強度雑音を決定的に印加する一方,残りの画素は低強度雑音のみを被写体とする。
論文参考訳（メタデータ） (2025-03-03T11:00:25Z)
Dimension-free Score Matching and Time Bootstrapping for Diffusion Models [11.743167854433306]
拡散モデルは、様々な雑音レベルにおける対象分布のスコア関数を推定してサンプルを生成する。本研究では,これらのスコア関数を学習するために,次元自由なサンプル境界の複雑性を初めて(ほぼ)確立する。我々の分析の重要な側面は、ノイズレベル間でのスコアを共同で推定する単一関数近似器を使用することである。
論文参考訳（メタデータ） (2025-02-14T18:32:22Z)
Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文参考訳（メタデータ） (2025-01-22T18:52:06Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文参考訳（メタデータ） (2024-03-21T17:52:08Z)
Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-20T14:22:12Z)
Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文参考訳（メタデータ） (2023-10-06T06:29:06Z)
Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer [3.2634122554914002]
拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。本稿では,目標がプロセスの進行時間ステップの異なる出力となる設定を提案する。提案手法は競争時間帯に高忠実度音声を生成することを示す。
論文参考訳（メタデータ） (2023-09-18T10:35:27Z)
Can Diffusion Model Achieve Better Performance in Text Generation? Bridging the Gap between Training and Inference! [14.979893207094221]
拡散モデルは、離散テキストを連続空間にマッピングすることで、テキスト生成タスクにうまく適応している。トレーニングと推論の間には、推論中に前処理が欠如しているため、無視できないギャップがある。本稿では、上記のギャップを埋める単純な方法として、Distance Penalty と Adaptive Decay Sampling を提案する。
論文参考訳（メタデータ） (2023-05-08T05:32:22Z)
Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文参考訳（メタデータ） (2023-02-08T19:38:59Z)
Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文参考訳（メタデータ） (2022-11-30T05:33:29Z)
Speech Enhancement and Dereverberation with Diffusion-based Generative Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文参考訳（メタデータ） (2022-08-11T13:55:12Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)
A Variational Perspective on Diffusion-Based Generative Models and Score Matching [8.93483643820767]
連続時間生成拡散の確率推定のための変分フレームワークを導出する。本研究は,プラグイン逆SDEの可能性の低い境界を最大化することと,スコアマッチング損失の最小化が等価であることを示す。
論文参考訳（メタデータ） (2021-06-05T05:50:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。