論文の概要: Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation
- arxiv url: http://arxiv.org/abs/2506.09376v1
- Date: Wed, 11 Jun 2025 03:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.344074
- Title: Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation
- Title(参考訳): 拡散モデルの再検討:生成前訓練からワンステップ生成へ
- Authors: Bowen Zheng, Tianming Yang,
- Abstract要約: 本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。
パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
- 参考スコア(独自算出の注目度): 2.3359837623080613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion distillation is a widely used technique to reduce the sampling cost of diffusion models, yet it often requires extensive training, and the student performance tends to be degraded. Recent studies show that incorporating a GAN objective may alleviate these issues, yet the underlying mechanism remains unclear. In this work, we first identify a key limitation of distillation: mismatched step sizes and parameter numbers between the teacher and the student model lead them to converge to different local minima, rendering direct imitation suboptimal. We further demonstrate that a standalone GAN objective, without relying a distillation loss, overcomes this limitation and is sufficient to convert diffusion models into efficient one-step generators. Based on this finding, we propose that diffusion training may be viewed as a form of generative pre-training, equipping models with capabilities that can be unlocked through lightweight GAN fine-tuning. Supporting this view, we create a one-step generation model by fine-tuning a pre-trained model with 85% of parameters frozen, achieving strong performance with only 0.2M images and near-SOTA results with 5M images. We further present a frequency-domain analysis that may explain the one-step generative capability gained in diffusion training. Overall, our work provides a new perspective for diffusion training, highlighting its role as a powerful generative pre-training process, which can be the basis for building efficient one-step generation models.
- Abstract(参考訳): 拡散蒸留は拡散モデルのサンプリングコストを削減するために広く用いられている手法であるが、広範囲の訓練を必要とすることが多く、学生のパフォーマンスは劣化する傾向にある。
近年の研究では、GANの目的を組み込むことでこれらの問題が軽減される可能性があるが、その基盤となるメカニズムは明らかでない。
本研究はまず, 蒸留における重要な限界を同定する: 教師と学生モデル間のミスマッチしたステップサイズとパラメータ番号により, 異なる局所的ミニマに収束し, 直接的模倣を最適化する。
さらに, 蒸留損失に頼らずに, 単独のGAN目標がこの制限を克服し, 拡散モデルを効率的な1ステップ生成器に変換するのに十分であることを示す。
そこで本研究では,拡散学習を生成前訓練の一種と見なすことができ,軽量なGANファインタニングにより解錠可能な機能を備えたモデルも提案する。
この観点から,パラメータの85%が凍結した事前学習モデルを微調整し,0.2M画像のみと5M画像の近SOTA結果で高い性能を達成し,一段階生成モデルを構築する。
さらに,拡散訓練において得られた1段階の生成能力を説明する周波数領域解析について述べる。
全体として、我々の研究は拡散訓練の新しい視点を提供し、効率的なワンステップ生成モデル構築の基礎となる強力な生成事前学習プロセスとしての役割を強調している。
関連論文リスト
- Effortless Efficiency: Low-Cost Pruning of Diffusion Models [29.821803522137913]
本稿では,拡散モデルに対するモデルに依存しない構造解析フレームワークを提案する。
最終復号化潜水剤の品質を保った効率的な刈り出しを確保するため, 拡散過程全体にわたる新しいエンドツーエンドの刈り出し目標を設計する。
最新のU-Net拡散モデル SDXL と拡散変換器 (FLUX) による結果から,本手法は性能劣化を最小限に抑え,20%のパラメータを効果的に生成できることを示した。
論文 参考訳(メタデータ) (2024-12-03T21:37:50Z) - Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。
オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。
提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文 参考訳(メタデータ) (2024-06-04T04:22:47Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。