Fugu-MT 論文翻訳(概要): Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation

論文の概要: Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation

arxiv url: http://arxiv.org/abs/2506.09376v1
Date: Wed, 11 Jun 2025 03:55:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:02.344074
Title: Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation
Title（参考訳）: 拡散モデルの再検討:生成前訓練からワンステップ生成へ
Authors: Bowen Zheng, Tianming Yang,
Abstract要約: 本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
参考スコア（独自算出の注目度）: 2.3359837623080613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion distillation is a widely used technique to reduce the sampling cost of diffusion models, yet it often requires extensive training, and the student performance tends to be degraded. Recent studies show that incorporating a GAN objective may alleviate these issues, yet the underlying mechanism remains unclear. In this work, we first identify a key limitation of distillation: mismatched step sizes and parameter numbers between the teacher and the student model lead them to converge to different local minima, rendering direct imitation suboptimal. We further demonstrate that a standalone GAN objective, without relying a distillation loss, overcomes this limitation and is sufficient to convert diffusion models into efficient one-step generators. Based on this finding, we propose that diffusion training may be viewed as a form of generative pre-training, equipping models with capabilities that can be unlocked through lightweight GAN fine-tuning. Supporting this view, we create a one-step generation model by fine-tuning a pre-trained model with 85% of parameters frozen, achieving strong performance with only 0.2M images and near-SOTA results with 5M images. We further present a frequency-domain analysis that may explain the one-step generative capability gained in diffusion training. Overall, our work provides a new perspective for diffusion training, highlighting its role as a powerful generative pre-training process, which can be the basis for building efficient one-step generation models.
Abstract（参考訳）: 拡散蒸留は拡散モデルのサンプリングコストを削減するために広く用いられている手法であるが、広範囲の訓練を必要とすることが多く、学生のパフォーマンスは劣化する傾向にある。近年の研究では、GANの目的を組み込むことでこれらの問題が軽減される可能性があるが、その基盤となるメカニズムは明らかでない。本研究はまず, 蒸留における重要な限界を同定する: 教師と学生モデル間のミスマッチしたステップサイズとパラメータ番号により, 異なる局所的ミニマに収束し, 直接的模倣を最適化する。さらに, 蒸留損失に頼らずに, 単独のGAN目標がこの制限を克服し, 拡散モデルを効率的な1ステップ生成器に変換するのに十分であることを示す。そこで本研究では,拡散学習を生成前訓練の一種と見なすことができ,軽量なGANファインタニングにより解錠可能な機能を備えたモデルも提案する。この観点から,パラメータの85%が凍結した事前学習モデルを微調整し,0.2M画像のみと5M画像の近SOTA結果で高い性能を達成し,一段階生成モデルを構築する。さらに,拡散訓練において得られた1段階の生成能力を説明する周波数領域解析について述べる。全体として、我々の研究は拡散訓練の新しい視点を提供し、効率的なワンステップ生成モデル構築の基礎となる強力な生成事前学習プロセスとしての役割を強調している。

関連論文リスト

Effortless Efficiency: Low-Cost Pruning of Diffusion Models [29.821803522137913]
本稿では,拡散モデルに対するモデルに依存しない構造解析フレームワークを提案する。最終復号化潜水剤の品質を保った効率的な刈り出しを確保するため, 拡散過程全体にわたる新しいエンドツーエンドの刈り出し目標を設計する。最新のU-Net拡散モデル SDXL と拡散変換器 (FLUX) による結果から,本手法は性能劣化を最小限に抑え,20%のパラメータを効果的に生成できることを示した。
論文参考訳（メタデータ） (2024-12-03T21:37:50Z)
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance [12.973835034100428]
本稿では, SNOOPIについて述べる。SNOOPIは, トレーニングと推論の双方において, ワンステップ拡散モデルのガイダンスを高めるために設計された新しいフレームワークである。両教師モデルの指導尺度を変化させることで、出力分布を拡大し、より堅牢なVSD損失が発生し、SBは競争性能を維持しつつ、多様なバックボーンを効果的に実行できる。第2に、負のプロンプトを1段階拡散モデルに統合して、生成した画像中の望ましくない要素を抑圧する、負のアウェイステア注意(Negative-Away Steer Attention, NASA)と呼ばれるトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2024-12-03T18:56:32Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文参考訳（メタデータ） (2024-10-05T16:41:36Z)
Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文参考訳（メタデータ） (2024-06-04T04:22:47Z)
EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文参考訳（メタデータ） (2024-05-27T05:55:22Z)
Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。 E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文参考訳（メタデータ） (2024-05-09T17:59:40Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。