論文の概要: Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge
- arxiv url: http://arxiv.org/abs/2406.06139v1
- Date: Mon, 10 Jun 2024 09:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:27:16.895486
- Title: Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge
- Title(参考訳): サンダー : ブラウン橋を用いた1段逆ステップによる一様回帰拡散音声強調
- Authors: Thanapat Trachu, Chawan Piansaddhayanon, Ekapol Chuangsuwanich,
- Abstract要約: 拡散に基づく音声強調は有望な結果を示したが、推論時間が遅くなる可能性がある。
We propose Thunder, a unified regression-diffusion model that the model can act in both modes。
- 参考スコア(独自算出の注目度): 4.641938413736726
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion-based speech enhancement has shown promising results, but can suffer from a slower inference time. Initializing the diffusion process with the enhanced audio generated by a regression-based model can be used to reduce the computational steps required. However, these approaches often necessitate a regression model, further increasing the system's complexity. We propose Thunder, a unified regression-diffusion model that utilizes the Brownian bridge process which can allow the model to act in both modes. The regression mode can be accessed by setting the diffusion time step closed to 1. However, the standard score-based diffusion modeling does not perform well in this setup due to gradient instability. To mitigate this problem, we modify the diffusion model to predict the clean speech instead of the score function, achieving competitive performance with a more compact model size and fewer reverse steps.
- Abstract(参考訳): 拡散に基づく音声強調は有望な結果を示したが、推論時間が遅くなる可能性がある。
回帰モデルにより生成された拡張オーディオを用いて拡散過程を初期化することにより、計算ステップを削減することができる。
しかしながら、これらのアプローチはレグレッションモデルを必要とすることが多く、システムの複雑さをさらに高める。
両モードでモデルを動作させることができるブラウン橋プロセスを利用する統一回帰拡散モデルThunderを提案する。
拡散時間ステップを1に設定することで回帰モードにアクセスできる。
しかし、勾配不安定のため、標準的なスコアベース拡散モデリングは、この設定ではうまく機能しない。
この問題を軽減するため、スコア関数の代わりにクリーン音声を予測するために拡散モデルを変更し、よりコンパクトなモデルサイズと少ない逆ステップで競合性能を達成する。
関連論文リスト
- Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - Fast Diffusion EM: a diffusion model for blind inverse problems with
application to deconvolution [0.0]
現在の手法では、劣化が知られており、復元と多様性の点で印象的な結果をもたらすと仮定している。
本研究では、これらのモデルの効率を活用し、復元された画像と未知のパラメータを共同で推定する。
本手法は,拡散モデルから抽出したサンプルを用いて,問題の対数類似度を近似し,未知のモデルパラメータを推定する方法とを交互に比較する。
論文 参考訳(メタデータ) (2023-09-01T06:47:13Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - StoRM: A Diffusion-based Stochastic Regeneration Model for Speech
Enhancement and Dereverberation [20.262426487434393]
本稿では,予測モデルによる推定値がさらなる拡散のガイドとして提供される再生手法を提案する。
提案手法は, 高い品質のサンプルを作成しながら, 発声・呼吸アーチファクトを除去するために, 予測モデルを用いていることを示す。
論文 参考訳(メタデータ) (2022-12-22T16:35:42Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z) - Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models
for Inverse Problems through Stochastic Contraction [31.61199061999173]
拡散モデルには重要な欠点がある。純粋なガウスノイズから画像を生成するために数千ステップの反復を必要とするため、サンプリングが本質的に遅い。
ガウスノイズから始めることは不要であることを示す。代わりに、より優れた初期化を伴う単一前方拡散から始めると、逆条件拡散におけるサンプリングステップの数を大幅に減少させる。
ComeCloser-DiffuseFaster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。
論文 参考訳(メタデータ) (2021-12-09T04:28:41Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。