論文の概要: Learning to Discretize Denoising Diffusion ODEs
- arxiv url: http://arxiv.org/abs/2405.15506v1
- Date: Fri, 24 May 2024 12:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 14:22:48.306118
- Title: Learning to Discretize Denoising Diffusion ODEs
- Title(参考訳): 拡散モードを識別する学習
- Authors: Vinh Tong, Anji Liu, Trung-Dung Hoang, Guy Van den Broeck, Mathias Niepert,
- Abstract要約: DPM でカプセル化された拡散 ODE から標本化しながら,時間離散化を学習するフレームワーク LD3 を提案する。
我々は,LD3が蒸留法と比較してサンプリング効率を向上させることを分析的,実証的に実証した。
- 参考スコア(独自算出の注目度): 41.50816120270017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Probabilistic Models (DPMs) are powerful generative models showing competitive performance in various domains, including image synthesis and 3D point cloud generation. However, sampling from pre-trained DPMs involves multiple neural function evaluations (NFE) to transform Gaussian noise samples into images, resulting in higher computational costs compared to single-step generative models such as GANs or VAEs. Therefore, a crucial problem is to reduce NFE while preserving generation quality. To this end, we propose LD3, a lightweight framework for learning time discretization while sampling from the diffusion ODE encapsulated by DPMs. LD3 can be combined with various diffusion ODE solvers and consistently improves performance without retraining resource-intensive neural networks. We demonstrate analytically and empirically that LD3 enhances sampling efficiency compared to distillation-based methods, without the extensive computational overhead. We evaluate our method with extensive experiments on 5 datasets, covering unconditional and conditional sampling in both pixel-space and latent-space DPMs. For example, in about 5 minutes of training on a single GPU, our method reduces the FID score from 6.63 to 2.68 on CIFAR10 (7 NFE), and in around 20 minutes, decreases the FID from 8.51 to 5.03 on class-conditional ImageNet-256 (5 NFE). LD3 complements distillation methods, offering a more efficient approach to sampling from pre-trained diffusion models.
- Abstract(参考訳): 拡散確率モデル(DPM)は、画像合成や3Dポイントクラウド生成など、様々な領域で競合する性能を示す強力な生成モデルである。
しかしながら、事前訓練されたDPMからのサンプリングには、ガウスノイズサンプルを画像に変換する複数の神経機能評価(NFE)が含まれるため、GANやVAEのような単一ステップ生成モデルよりも高い計算コストが生じる。
したがって、生成品質を維持しながらNFEを減少させることが重要な問題である。
そこで本研究では,DPM でカプセル化された拡散 ODE から標本化しながら,時間離散化を学習するための軽量フレームワーク LD3 を提案する。
LD3は様々な拡散ODEソルバと組み合わせることができる。
LD3は, 蒸留法よりもサンプリング効率を向上し, 膨大な計算オーバーヘッドを伴わないことを解析的, 実証的に実証した。
提案手法を5つのデータセットに対して広範な実験により評価し,画素空間DPMと潜在空間DPMの両方で条件付きおよび条件付きサンプリングを行う。
例えば、1つのGPUで約5分間のトレーニングでは、CIFAR10(7 NFE)ではFIDスコアが6.63から2.68に減少し、20分後には、クラス条件のImageNet-256(5 NFE)では8.51から5.03に低下する。
LD3は蒸留法を補完し、事前訓練された拡散モデルからのサンプリングをより効率的に行う。
関連論文リスト
- Efficient NeRF Optimization -- Not All Samples Remain Equally Hard [9.404889815088161]
ニューラルレイディアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。
NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
論文 参考訳(メタデータ) (2024-08-06T13:49:01Z) - cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation [0.7853804618032806]
本稿では,複数の時間領域観測のクラスをシミュレートする手法として,ジェネレーティブ・アドリアック・ネットワーク・フレームワークに新しい条件モデルを提案する。
提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。
実験の結果,cDVGAN生成データによる畳み込みニューラルネットワークのトレーニングにより,検出器ノイズに埋め込まれたサンプルの検出が向上することがわかった。
論文 参考訳(メタデータ) (2024-01-29T17:59:26Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model
Statistics [23.030972042695275]
拡散モデル(DPM)は、非効率サンプリングに悩まされながら、高忠実度画像生成に優れた性能を示した。
最近の研究は、DPMの特定のODE形式を利用する高速ODEソルバを提案することでサンプリング手順を加速している。
本稿では,1次離散化誤差を最小限に抑えるため,サンプリング中の最適パラメータ化に向けた新しい定式化を提案する。
論文 参考訳(メタデータ) (2023-10-20T04:23:12Z) - Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。
そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:59:42Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality
Speech Synthesis [45.58131296169655]
拡散確率モデル(DPM)とその拡張は、競争力のある生成モデルとして登場したが、効率的なサンプリングの課題に直面している。
本稿では,前処理と逆処理の両方をスケジュールネットワークとスコアネットワークでパラメータ化する,新たな二値化拡散モデルを提案する。
従来のサロゲートよりも厳密なログの辺りを狭めることが,新しいサロゲートの目的であることを示す。
論文 参考訳(メタデータ) (2022-03-25T08:53:12Z) - Bilateral Denoising Diffusion Models [34.507876199641665]
拡散確率モデル (DDPM) は競合生成モデルとして出現している。
本稿では,高品質なサンプルを生成するためのステップを著しく減らした,新しい二値化拡散モデル(BDDM)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:23:41Z) - Hyperspectral Classification Based on Lightweight 3-D-CNN With Transfer
Learning [67.40866334083941]
限定サンプルに基づくHSI分類のためのエンドツーエンドの3次元軽量畳み込みニューラルネットワーク(CNN)を提案する。
従来の3D-CNNモデルと比較して,提案した3D-LWNetはネットワーク構造が深く,パラメータが小さく,計算コストも低い。
本モデルでは,HSI分類の競合性能を,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2020-12-07T03:44:35Z) - Denoising Diffusion Implicit Models [117.03720513930335]
DDPMと同様の訓練手順を施した反復的暗黙的確率モデルに対して,拡散暗黙モデル(DDIM)を提案する。
DDIMsは、DDPMsと比較して、壁面時間で10倍から50倍高速な高品質のサンプルを作成できる。
論文 参考訳(メタデータ) (2020-10-06T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。