論文の概要: Efficient Diffusion Training through Parallelization with Truncated Karhunen-Loève Expansion
- arxiv url: http://arxiv.org/abs/2503.17657v1
- Date: Sat, 22 Mar 2025 05:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:55.956315
- Title: Efficient Diffusion Training through Parallelization with Truncated Karhunen-Loève Expansion
- Title(参考訳): Trncated Karhunen-Loève Expansionによる並列化による効率的な拡散訓練
- Authors: Yumeng Ren, Yaofang Liu, Aitor Artola, Laurent Mertz, Raymond H. Chan, Jean-michel Morel,
- Abstract要約: 拡散認知モデルは、トレーニング中に緩やかな収束に苦しむ。
本稿では,トレーニングとサンプリングのための新しい前向きプロセスを提案する。
本手法はベースライン拡散モデルより有意に優れている。
- 参考スコア(独自算出の注目度): 5.770347328961063
- License:
- Abstract: Diffusion denoising models have become a popular approach for image generation, but they often suffer from slow convergence during training. In this paper, we identify that this slow convergence is partly due to the complexity of the Brownian motion driving the forward-time process. To address this, we represent the Brownian motion using the Karhunen-Lo\`eve expansion, truncating it to a limited number of eigenfunctions. We propose a novel ordinary differential equation with augmented random initials, termed KL diffusion, as a new forward-time process for training and sampling. By developing an appropriate denoising loss function, we facilitate the integration of our KL-diffusion into existing denoising-based models. Using the widely adopted DDIM framework as our baseline ensures a fair comparison, as our modifications focus solely on the forward process and loss function, leaving the network architecture and sampling methods unchanged. Our method significantly outperforms baseline diffusion models, achieving convergence speeds that are twice faster to reach the best FID score of the baseline and ultimately yielding much lower FID scores. Notably, our approach allows for highly parallelized computation, requires no additional learnable parameters, and can be flexibly integrated into existing diffusion methods. The code will be made publicly available.
- Abstract(参考訳): 拡散認知モデルは画像生成において一般的なアプローチとなっているが、訓練中に緩やかな収束に悩まされることが多い。
本稿では、この緩やかな収束は、前向き過程を駆動するブラウン運動の複雑さによるものであると同定する。
これを解決するために、Karhunen-Lo\`eve展開を用いてブラウン運動を表現する。
我々は,KL拡散と呼ばれる拡張ランダムな初期値を持つ新しい常微分方程式を,学習とサンプリングのための新しい前処理として提案する。
適切な復調損失関数を開発することにより,既存の復調モデルへのKL拡散を促進できる。
我々のベースラインとして広く採用されているDDIMフレームワークを使用することで、前処理と損失関数のみに焦点を合わせ、ネットワークアーキテクチャとサンプリングメソッドは変わらないため、公正な比較が得られます。
本手法は, ベースライン拡散モデルよりも優れ, 収束速度を2倍に向上し, ベースラインの最良のFIDスコアに到達し, 最終的により低いFIDスコアを得る。
特に,本手法は並列性の高い計算が可能であり,学習可能なパラメータを必要とせず,既存の拡散法に柔軟に統合できる。
コードは公開されます。
関連論文リスト
- RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。
本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:28:19Z) - Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge [4.641938413736726]
拡散に基づく音声強調は有望な結果を示したが、推論時間が遅くなる可能性がある。
We propose Thunder, a unified regression-diffusion model that the model can act in both modes。
論文 参考訳(メタデータ) (2024-06-10T09:52:25Z) - Adversarial Schrödinger Bridge Matching [66.39774923893103]
反復マルコフフィッティング(IMF)手順は、マルコフ過程の相互射影と相互射影を交互に交互に行う。
本稿では、プロセスの学習を離散時間でほんの少しの遷移確率の学習に置き換える新しい離散時間IMF(D-IMF)手順を提案する。
D-IMFの手続きは、数百ではなく数世代のステップで、IMFと同じ品質の未完成のドメイン翻訳を提供できることを示す。
論文 参考訳(メタデータ) (2024-05-23T11:29:33Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse
Problems [64.29491112653905]
本稿では, 拡散サンプリング法とクリロフ部分空間法を相乗的に組み合わせた, 新規で効率的な拡散サンプリング手法を提案する。
具体的には、ツイーディの公式による分母化標本における接空間がクリロフ部分空間を成すならば、その分母化データによるCGは、接空間におけるデータの整合性更新を確実に維持する。
提案手法は,従来の最先端手法よりも80倍以上高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-03-10T07:42:49Z) - Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models
for Inverse Problems through Stochastic Contraction [31.61199061999173]
拡散モデルには重要な欠点がある。純粋なガウスノイズから画像を生成するために数千ステップの反復を必要とするため、サンプリングが本質的に遅い。
ガウスノイズから始めることは不要であることを示す。代わりに、より優れた初期化を伴う単一前方拡散から始めると、逆条件拡散におけるサンプリングステップの数を大幅に減少させる。
ComeCloser-DiffuseFaster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。
論文 参考訳(メタデータ) (2021-12-09T04:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。