論文の概要: PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher
- arxiv url: http://arxiv.org/abs/2405.14822v1
- Date: Thu, 23 May 2024 17:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:37:09.730513
- Title: PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher
- Title(参考訳): PaGoDA:低分解能拡散教師によるワンステップ発電機の進行的成長
- Authors: Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon,
- Abstract要約: PaGoDAは、ジェネレータの解像度を、元の教師DMよりも徐々に拡大させる技術である。
逆問題に対するPaGoDAの有効性を実証し、制御可能な生成を可能にする。
- 参考スコア(独自算出の注目度): 55.22994720855957
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To accelerate sampling, diffusion models (DMs) are often distilled into generators that directly map noise to data in a single step. In this approach, the resolution of the generator is fundamentally limited by that of the teacher DM. To overcome this limitation, we propose Progressive Growing of Diffusion Autoencoder (PaGoDA), a technique to progressively grow the resolution of the generator beyond that of the original teacher DM. Our key insight is that a pre-trained, low-resolution DM can be used to deterministically encode high-resolution data to a structured latent space by solving the PF-ODE forward in time (data-to-noise), starting from an appropriately down-sampled image. Using this frozen encoder in an auto-encoder framework, we train a decoder by progressively growing its resolution. From the nature of progressively growing decoder, PaGoDA avoids re-training teacher/student models when we upsample the student model, making the whole training pipeline much cheaper. In experiments, we used our progressively growing decoder to upsample from the pre-trained model's 64x64 resolution to generate 512x512 samples, achieving 2x faster inference compared to single-step distilled Stable Diffusion like LCM. PaGoDA also achieved state-of-the-art FIDs on ImageNet across all resolutions from 64x64 to 512x512. Additionally, we demonstrated PaGoDA's effectiveness in solving inverse problems and enabling controllable generation.
- Abstract(参考訳): サンプリングを加速するため、拡散モデル(DM)は1ステップで直接データにノイズをマッピングするジェネレータに蒸留されることが多い。
このアプローチでは、ジェネレータの分解能は教師DMの分解能によって根本的に制限される。
この制限を克服するため,本論文では,原教師DMの解像度を超えて,ジェネレータの解像度を段階的に向上させる手法であるProgressive Growing of Diffusion Autoencoder (PaGoDA)を提案する。
我々の重要な洞察は、事前学習された低解像度のDMを用いて、適切なサンプル画像から始まるPF-ODEを前方に解き、構造化された潜在空間に高解像度データを決定的に符号化することができることである。
この凍結エンコーダを自動エンコーダフレームワークで使用することにより、デコーダの解像度を徐々に向上させることでデコーダを訓練する。
徐々に成長するデコーダの性質から、PaGoDAは、学生モデルをアップサンプリングするときに、教師/学生モデルの再トレーニングを回避し、トレーニングパイプライン全体をずっと安価にします。
実験では, 段階的に成長するデコーダを用いて, 事前学習モデルの64x64解像度から512x512サンプルを生成する。
PaGoDAはまた、64x64から512x512までのすべての解像度でImageNetの最先端のFIDを達成している。
さらに,逆問題に対するPaGoDAの有効性を実証し,制御可能な生成を可能にする。
関連論文リスト
- Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。
我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。
私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文 参考訳(メタデータ) (2024-10-11T05:03:56Z) - Accelerating Parallel Sampling of Diffusion Models [25.347710690711562]
自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。
これらの手法を適用したParaTAAは、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。
実験により、ParaTAAは一般的なシーケンシャルサンプリングアルゴリズムで要求される推論ステップを4$sim$14倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-15T14:27:58Z) - HiPA: Enabling One-Step Text-to-Image Diffusion Models via
High-Frequency-Promoting Adaptation [47.43155993432259]
High- frequency-Promoting Adaptation (HiPA) は、一段階のテキスト・画像拡散を可能にするパラメータ効率の高い手法である。
HiPAは、高度拡散モデルの低周波数能力を高めるために、一段階の低ランク適応器の訓練に重点を置いている。
プログレッシブ蒸留と比較すると、HiPAは1段階のテキスト・ツー・イメージ・ジェネレーションにおいてはるかに優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-11-30T00:14:07Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Patch Diffusion: Faster and More Data-Efficient Training of Diffusion
Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。
Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。
我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文 参考訳(メタデータ) (2023-04-25T02:35:54Z) - Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。
この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文 参考訳(メタデータ) (2023-04-24T14:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。