Fugu-MT 論文翻訳(概要): Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge

論文の概要: Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge

arxiv url: http://arxiv.org/abs/2406.06139v1
Date: Mon, 10 Jun 2024 09:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 14:27:16.895486
Title: Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge
Title（参考訳）: サンダー : ブラウン橋を用いた1段逆ステップによる一様回帰拡散音声強調
Authors: Thanapat Trachu, Chawan Piansaddhayanon, Ekapol Chuangsuwanich,
Abstract要約: 拡散に基づく音声強調は有望な結果を示したが、推論時間が遅くなる可能性がある。 We propose Thunder, a unified regression-diffusion model that the model can act in both modes。
参考スコア（独自算出の注目度）: 4.641938413736726
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Diffusion-based speech enhancement has shown promising results, but can suffer from a slower inference time. Initializing the diffusion process with the enhanced audio generated by a regression-based model can be used to reduce the computational steps required. However, these approaches often necessitate a regression model, further increasing the system's complexity. We propose Thunder, a unified regression-diffusion model that utilizes the Brownian bridge process which can allow the model to act in both modes. The regression mode can be accessed by setting the diffusion time step closed to 1. However, the standard score-based diffusion modeling does not perform well in this setup due to gradient instability. To mitigate this problem, we modify the diffusion model to predict the clean speech instead of the score function, achieving competitive performance with a more compact model size and fewer reverse steps.
Abstract（参考訳）: 拡散に基づく音声強調は有望な結果を示したが、推論時間が遅くなる可能性がある。回帰モデルにより生成された拡張オーディオを用いて拡散過程を初期化することにより、計算ステップを削減することができる。しかしながら、これらのアプローチはレグレッションモデルを必要とすることが多く、システムの複雑さをさらに高める。両モードでモデルを動作させることができるブラウン橋プロセスを利用する統一回帰拡散モデルThunderを提案する。拡散時間ステップを1に設定することで回帰モードにアクセスできる。しかし、勾配不安定のため、標準的なスコアベース拡散モデリングは、この設定ではうまく機能しない。この問題を軽減するため、スコア関数の代わりにクリーン音声を予測するために拡散モデルを変更し、よりコンパクトなモデルサイズと少ない逆ステップで競合性能を達成する。

関連論文リスト

Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文参考訳（メタデータ） (2025-08-13T17:33:37Z)
Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment [14.097906894386066]
PostDiffは、トレーニング済みの拡散モデルを加速するためのトレーニング不要のフレームワークである。我々はPostDiffが最先端拡散モデルの忠実性と効率のトレードオフを大幅に改善できることを示す。
論文参考訳（メタデータ） (2025-08-08T09:29:37Z)
AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文参考訳（メタデータ） (2025-04-13T08:29:58Z)
Efficient Diffusion Training through Parallelization with Truncated Karhunen-Loève Expansion [5.770347328961063]
拡散認知モデルは、トレーニング中に緩やかな収束に苦しむ。本稿では,トレーニングとサンプリングのための新しい前向きプロセスを提案する。本手法はベースライン拡散モデルより有意に優れている。
論文参考訳（メタデータ） (2025-03-22T05:34:02Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
One-for-More: Continual Diffusion Model for Anomaly Detection [63.50488826645681]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-27T07:47:27Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。 PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。 PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文参考訳（メタデータ） (2024-10-04T07:05:16Z)
Discrete Copula Diffusion [44.96934660818884]
離散拡散モデルがより少ないステップで強い性能を達成するのを防ぐ基本的な制限を同定する。我々は,コプラモデルと呼ばれる別の深層生成モデルを導入することで,欠落した依存情報を補うための一般的なアプローチを提案する。本手法は拡散モデルとコプラモデルの両方を微調整する必要はないが, 高い品質のサンプル生成が可能であり, 分解ステップが著しく少ない。
論文参考訳（メタデータ） (2024-10-02T18:51:38Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。本稿では,2段階の学習手法を用いて,これらの制約に対処する。提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文参考訳（メタデータ） (2023-09-18T11:30:58Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文参考訳（メタデータ） (2023-04-10T17:54:38Z)
Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-02-19T20:18:49Z)
Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models for Inverse Problems through Stochastic Contraction [31.61199061999173]
拡散モデルには重要な欠点がある。純粋なガウスノイズから画像を生成するために数千ステップの反復を必要とするため、サンプリングが本質的に遅い。ガウスノイズから始めることは不要であることを示す。代わりに、より優れた初期化を伴う単一前方拡散から始めると、逆条件拡散におけるサンプリングステップの数を大幅に減少させる。 ComeCloser-DiffuseFaster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。
論文参考訳（メタデータ） (2021-12-09T04:28:41Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。