論文の概要: Efficient Diffusion Training through Parallelization with Truncated Karhunen-Loève Expansion
- arxiv url: http://arxiv.org/abs/2503.17657v1
- Date: Sat, 22 Mar 2025 05:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.749629
- Title: Efficient Diffusion Training through Parallelization with Truncated Karhunen-Loève Expansion
- Title(参考訳): Trncated Karhunen-Loève Expansionによる並列化による効率的な拡散訓練
- Authors: Yumeng Ren, Yaofang Liu, Aitor Artola, Laurent Mertz, Raymond H. Chan, Jean-michel Morel,
- Abstract要約: 拡散認知モデルは、トレーニング中に緩やかな収束に苦しむ。
本稿では,トレーニングとサンプリングのための新しい前向きプロセスを提案する。
本手法はベースライン拡散モデルより有意に優れている。
- 参考スコア(独自算出の注目度): 5.770347328961063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion denoising models have become a popular approach for image generation, but they often suffer from slow convergence during training. In this paper, we identify that this slow convergence is partly due to the complexity of the Brownian motion driving the forward-time process. To address this, we represent the Brownian motion using the Karhunen-Lo\`eve expansion, truncating it to a limited number of eigenfunctions. We propose a novel ordinary differential equation with augmented random initials, termed KL diffusion, as a new forward-time process for training and sampling. By developing an appropriate denoising loss function, we facilitate the integration of our KL-diffusion into existing denoising-based models. Using the widely adopted DDIM framework as our baseline ensures a fair comparison, as our modifications focus solely on the forward process and loss function, leaving the network architecture and sampling methods unchanged. Our method significantly outperforms baseline diffusion models, achieving convergence speeds that are twice faster to reach the best FID score of the baseline and ultimately yielding much lower FID scores. Notably, our approach allows for highly parallelized computation, requires no additional learnable parameters, and can be flexibly integrated into existing diffusion methods. The code will be made publicly available.
- Abstract(参考訳): 拡散認知モデルは画像生成において一般的なアプローチとなっているが、訓練中に緩やかな収束に悩まされることが多い。
本稿では、この緩やかな収束は、前向き過程を駆動するブラウン運動の複雑さによるものであると同定する。
これを解決するために、Karhunen-Lo\`eve展開を用いてブラウン運動を表現する。
我々は,KL拡散と呼ばれる拡張ランダムな初期値を持つ新しい常微分方程式を,学習とサンプリングのための新しい前処理として提案する。
適切な復調損失関数を開発することにより,既存の復調モデルへのKL拡散を促進できる。
我々のベースラインとして広く採用されているDDIMフレームワークを使用することで、前処理と損失関数のみに焦点を合わせ、ネットワークアーキテクチャとサンプリングメソッドは変わらないため、公正な比較が得られます。
本手法は, ベースライン拡散モデルよりも優れ, 収束速度を2倍に向上し, ベースラインの最良のFIDスコアに到達し, 最終的により低いFIDスコアを得る。
特に,本手法は並列性の高い計算が可能であり,学習可能なパラメータを必要とせず,既存の拡散法に柔軟に統合できる。
コードは公開されます。
関連論文リスト
- AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。
本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。
キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文 参考訳(メタデータ) (2025-04-13T08:29:58Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
離散拡散過程を補間する一般族の理論的バックボーンを導出する。
GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。
本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:28:19Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Generative Fractional Diffusion Models [53.36835573822926]
我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。
実画像データを用いた評価では,GFDMはFIDが低い値で示されるように,画素幅の多様性と画質の向上を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:53:24Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models
for Inverse Problems through Stochastic Contraction [31.61199061999173]
拡散モデルには重要な欠点がある。純粋なガウスノイズから画像を生成するために数千ステップの反復を必要とするため、サンプリングが本質的に遅い。
ガウスノイズから始めることは不要であることを示す。代わりに、より優れた初期化を伴う単一前方拡散から始めると、逆条件拡散におけるサンプリングステップの数を大幅に減少させる。
ComeCloser-DiffuseFaster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。
論文 参考訳(メタデータ) (2021-12-09T04:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。