論文の概要: Learning to Discretize Denoising Diffusion ODEs
- arxiv url: http://arxiv.org/abs/2405.15506v1
- Date: Fri, 24 May 2024 12:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 14:22:48.306118
- Title: Learning to Discretize Denoising Diffusion ODEs
- Title(参考訳): 拡散モードを識別する学習
- Authors: Vinh Tong, Anji Liu, Trung-Dung Hoang, Guy Van den Broeck, Mathias Niepert,
- Abstract要約: DPM でカプセル化された拡散 ODE から標本化しながら,時間離散化を学習するフレームワーク LD3 を提案する。
我々は,LD3が蒸留法と比較してサンプリング効率を向上させることを分析的,実証的に実証した。
- 参考スコア(独自算出の注目度): 41.50816120270017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Probabilistic Models (DPMs) are powerful generative models showing competitive performance in various domains, including image synthesis and 3D point cloud generation. However, sampling from pre-trained DPMs involves multiple neural function evaluations (NFE) to transform Gaussian noise samples into images, resulting in higher computational costs compared to single-step generative models such as GANs or VAEs. Therefore, a crucial problem is to reduce NFE while preserving generation quality. To this end, we propose LD3, a lightweight framework for learning time discretization while sampling from the diffusion ODE encapsulated by DPMs. LD3 can be combined with various diffusion ODE solvers and consistently improves performance without retraining resource-intensive neural networks. We demonstrate analytically and empirically that LD3 enhances sampling efficiency compared to distillation-based methods, without the extensive computational overhead. We evaluate our method with extensive experiments on 5 datasets, covering unconditional and conditional sampling in both pixel-space and latent-space DPMs. For example, in about 5 minutes of training on a single GPU, our method reduces the FID score from 6.63 to 2.68 on CIFAR10 (7 NFE), and in around 20 minutes, decreases the FID from 8.51 to 5.03 on class-conditional ImageNet-256 (5 NFE). LD3 complements distillation methods, offering a more efficient approach to sampling from pre-trained diffusion models.
- Abstract(参考訳): 拡散確率モデル(DPM)は、画像合成や3Dポイントクラウド生成など、様々な領域で競合する性能を示す強力な生成モデルである。
しかしながら、事前訓練されたDPMからのサンプリングには、ガウスノイズサンプルを画像に変換する複数の神経機能評価(NFE)が含まれるため、GANやVAEのような単一ステップ生成モデルよりも高い計算コストが生じる。
したがって、生成品質を維持しながらNFEを減少させることが重要な問題である。
そこで本研究では,DPM でカプセル化された拡散 ODE から標本化しながら,時間離散化を学習するための軽量フレームワーク LD3 を提案する。
LD3は様々な拡散ODEソルバと組み合わせることができる。
LD3は, 蒸留法よりもサンプリング効率を向上し, 膨大な計算オーバーヘッドを伴わないことを解析的, 実証的に実証した。
提案手法を5つのデータセットに対して広範な実験により評価し,画素空間DPMと潜在空間DPMの両方で条件付きおよび条件付きサンプリングを行う。
例えば、1つのGPUで約5分間のトレーニングでは、CIFAR10(7 NFE)ではFIDスコアが6.63から2.68に減少し、20分後には、クラス条件のImageNet-256(5 NFE)では8.51から5.03に低下する。
LD3は蒸留法を補完し、事前訓練された拡散モデルからのサンプリングをより効率的に行う。
関連論文リスト
- EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Fast ODE-based Sampling for Diffusion Models in Around 5 Steps [17.500594480727617]
本稿では, 高速サンプリングのための平均方向を直接学習することにより, トランケーション誤差を解消する近似平均方向解法(AMED-r)を提案する。
本手法は,既存の ODE ベースのサンプルを改良するためのプラグインとして容易に利用できる。
論文 参考訳(メタデータ) (2023-11-30T13:07:19Z) - DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model
Statistics [23.030972042695275]
拡散モデル(DPM)は、非効率サンプリングに悩まされながら、高忠実度画像生成に優れた性能を示した。
最近の研究は、DPMの特定のODE形式を利用する高速ODEソルバを提案することでサンプリング手順を加速している。
本稿では,1次離散化誤差を最小限に抑えるため,サンプリング中の最適パラメータ化に向けた新しい定式化を提案する。
論文 参考訳(メタデータ) (2023-10-20T04:23:12Z) - Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。
そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:59:42Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Denoising Diffusion Implicit Models [117.03720513930335]
DDPMと同様の訓練手順を施した反復的暗黙的確率モデルに対して,拡散暗黙モデル(DDIM)を提案する。
DDIMsは、DDPMsと比較して、壁面時間で10倍から50倍高速な高品質のサンプルを作成できる。
論文 参考訳(メタデータ) (2020-10-06T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。