論文の概要: Learning to Discretize Denoising Diffusion ODEs
- arxiv url: http://arxiv.org/abs/2405.15506v2
- Date: Fri, 04 Oct 2024 15:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:06:46.509960
- Title: Learning to Discretize Denoising Diffusion ODEs
- Title(参考訳): 拡散モードを識別する学習
- Authors: Vinh Tong, Trung-Dung Hoang, Anji Liu, Guy Van den Broeck, Mathias Niepert,
- Abstract要約: 拡散確率モデル(英: Diffusion Probabilistic Models, DPM)は、様々な領域における競争性能を示す生成モデルである。
本稿では,サンプリングのための最適な時間離散化学習を目的とした軽量フレームワークLD3を提案する。
我々はLD3がサンプリング効率をはるかに低い計算オーバーヘッドで改善できることを解析的かつ実証的に実証した。
- 参考スコア(独自算出の注目度): 41.50816120270017
- License:
- Abstract: Diffusion Probabilistic Models (DPMs) are generative models showing competitive performance in various domains, including image synthesis and 3D point cloud generation. Sampling from pre-trained DPMs involves multiple neural function evaluations (NFE) to transform Gaussian noise samples into images, resulting in higher computational costs compared to single-step generative models such as GANs or VAEs. Therefore, reducing the number of NFEs while preserving generation quality is crucial. To address this, we propose LD3, a lightweight framework designed to learn the optimal time discretization for sampling. LD3 can be combined with various samplers and consistently improves generation quality without having to retrain resource-intensive neural networks. We demonstrate analytically and empirically that LD3 improves sampling efficiency with much less computational overhead. We evaluate our method with extensive experiments on 7 pre-trained models, covering unconditional and conditional sampling in both pixel-space and latent-space DPMs. We achieve FIDs of 2.38 (10 NFE), and 2.27 (10 NFE) on unconditional CIFAR10 and AFHQv2 in 5-10 minutes of training. LD3 offers an efficient approach to sampling from pre-trained diffusion models. Code is available at https://github.com/vinhsuhi/LD3/tree/main.
- Abstract(参考訳): 拡散確率モデル(英: Diffusion Probabilistic Models, DPM)は、画像合成や3Dポイントクラウド生成など、様々な領域で競合する性能を示す生成モデルである。
事前訓練されたDPMからのサンプリングには、ガウスノイズサンプルを画像に変換する複数の神経機能評価(NFE)が含まれる。
したがって、生成品質を維持しながらNFEを減らすことが重要である。
そこで本研究では,サンプリングのための最適な時間離散化学習を目的とした軽量フレームワークLD3を提案する。
LD3は様々なサンプルと組み合わせることで、リソース集約型ニューラルネットワークを再トレーニングすることなく、生成品質を一貫して改善することができる。
我々はLD3がサンプリング効率をはるかに低い計算オーバーヘッドで改善できることを解析的かつ実証的に実証した。
本研究では,7種類の事前学習モデルを用いて,画素空間DPMと潜在空間DPMの非条件サンプリングおよび条件サンプリングを行った。
我々は,無条件CIFAR10とAFHQv2の2.38 (10 NFE)と2.27 (10 NFE)のFIDを5~10分で達成した。
LD3は、事前訓練された拡散モデルからサンプリングするための効率的なアプローチを提供する。
コードはhttps://github.com/vinhsuhi/LD3/tree/mainで入手できる。
関連論文リスト
- Efficient NeRF Optimization -- Not All Samples Remain Equally Hard [9.404889815088161]
ニューラルレイディアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。
NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
論文 参考訳(メタデータ) (2024-08-06T13:49:01Z) - cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation [0.7853804618032806]
本稿では,複数の時間領域観測のクラスをシミュレートする手法として,ジェネレーティブ・アドリアック・ネットワーク・フレームワークに新しい条件モデルを提案する。
提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。
実験の結果,cDVGAN生成データによる畳み込みニューラルネットワークのトレーニングにより,検出器ノイズに埋め込まれたサンプルの検出が向上することがわかった。
論文 参考訳(メタデータ) (2024-01-29T17:59:26Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model
Statistics [23.030972042695275]
拡散モデル(DPM)は、非効率サンプリングに悩まされながら、高忠実度画像生成に優れた性能を示した。
最近の研究は、DPMの特定のODE形式を利用する高速ODEソルバを提案することでサンプリング手順を加速している。
本稿では,1次離散化誤差を最小限に抑えるため,サンプリング中の最適パラメータ化に向けた新しい定式化を提案する。
論文 参考訳(メタデータ) (2023-10-20T04:23:12Z) - Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。
そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:59:42Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality
Speech Synthesis [45.58131296169655]
拡散確率モデル(DPM)とその拡張は、競争力のある生成モデルとして登場したが、効率的なサンプリングの課題に直面している。
本稿では,前処理と逆処理の両方をスケジュールネットワークとスコアネットワークでパラメータ化する,新たな二値化拡散モデルを提案する。
従来のサロゲートよりも厳密なログの辺りを狭めることが,新しいサロゲートの目的であることを示す。
論文 参考訳(メタデータ) (2022-03-25T08:53:12Z) - Bilateral Denoising Diffusion Models [34.507876199641665]
拡散確率モデル (DDPM) は競合生成モデルとして出現している。
本稿では,高品質なサンプルを生成するためのステップを著しく減らした,新しい二値化拡散モデル(BDDM)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:23:41Z) - Hyperspectral Classification Based on Lightweight 3-D-CNN With Transfer
Learning [67.40866334083941]
限定サンプルに基づくHSI分類のためのエンドツーエンドの3次元軽量畳み込みニューラルネットワーク(CNN)を提案する。
従来の3D-CNNモデルと比較して,提案した3D-LWNetはネットワーク構造が深く,パラメータが小さく,計算コストも低い。
本モデルでは,HSI分類の競合性能を,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2020-12-07T03:44:35Z) - Denoising Diffusion Implicit Models [117.03720513930335]
DDPMと同様の訓練手順を施した反復的暗黙的確率モデルに対して,拡散暗黙モデル(DDIM)を提案する。
DDIMsは、DDPMsと比較して、壁面時間で10倍から50倍高速な高品質のサンプルを作成できる。
論文 参考訳(メタデータ) (2020-10-06T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。