論文の概要: Diffusion Models Are Innate One-Step Generators
- arxiv url: http://arxiv.org/abs/2405.20750v1
- Date: Fri, 31 May 2024 11:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:47:24.337045
- Title: Diffusion Models Are Innate One-Step Generators
- Title(参考訳): 拡散モデルは本質的に1ステップの発電機である
- Authors: Bowen Zheng, Tianming Yang,
- Abstract要約: 拡散モデル(DM)は優れた高品質な結果をもたらす。
DMの層は異なる時間ステップで異なるアクティベートされ、単一のステップで画像を生成する固有の能力をもたらす。
提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
- 参考スコア(独自算出の注目度): 2.3359837623080613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Models (DMs) have achieved great success in image generation and other fields. By fine sampling through the trajectory defined by the SDE/ODE solver based on a well-trained score model, DMs can generate remarkable high-quality results. However, this precise sampling often requires multiple steps and is computationally demanding. To address this problem, instance-based distillation methods have been proposed to distill a one-step generator from a DM by having a simpler student model mimic a more complex teacher model. Yet, our research reveals an inherent limitations in these methods: the teacher model, with more steps and more parameters, occupies different local minima compared to the student model, leading to suboptimal performance when the student model attempts to replicate the teacher. To avoid this problem, we introduce a novel distributional distillation method, which uses an exclusive distributional loss. This method exceeds state-of-the-art (SOTA) results while requiring significantly fewer training images. Additionally, we show that DMs' layers are activated differently at different time steps, leading to an inherent capability to generate images in a single step. Freezing most of the convolutional layers in a DM during distributional distillation leads to further performance improvements. Our method achieves the SOTA results on CIFAR-10 (FID 1.54), AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85) and ImageNet 64x64 (FID 1.16) with great efficiency. Most of those results are obtained with only 5 million training images within 6 hours on 8 A100 GPUs. This breakthrough not only enhances the understanding of efficient image generation models but also offers a scalable framework for advancing the state of the art in various applications.
- Abstract(参考訳): 拡散モデル(DM)は画像生成や他の分野で大きな成功を収めた。
SDE/ODEソルバによって定義された軌道を、よく訓練されたスコアモデルに基づいて微細にサンプリングすることで、DMは驚くほど高品質な結果が得られる。
しかし、この正確なサンプリングは、しばしば複数のステップを必要とし、計算的に要求される。
この問題を解決するために、より単純な学生モデルでより複雑な教師モデルを模倣することにより、DMから一段階の発電機を蒸留するインスタンスベースの蒸留法が提案されている。
しかし,本研究では,教師モデルに固有の制約が明らかにされている: 生徒モデルと生徒モデルとの違いにより,生徒モデルが教師モデルを再現しようとする場合,教師モデルが異なる局所的ミニマを占有する。
この問題を回避するため, 排他的分散損失を用いた新しい分散蒸留法を提案する。
この方法は、トレーニングイメージを著しく少なくしながら、最先端のSOTA(State-of-the-art)結果を上回る。
さらに、DMの層は異なる時間ステップで異なる活性化をしており、単一のステップで画像を生成する固有の能力をもたらすことを示す。
分散蒸留中のDM中の畳み込み層の大半を凍結すると、さらなる性能向上につながる。
提案手法は, CIFAR-10 (FID 1.54), AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
これらの結果のほとんどは、A100GPU8台で6時間以内に500万のトレーニングイメージで得られます。
このブレークスルーは、効率的な画像生成モデルの理解を深めるだけでなく、様々なアプリケーションで最先端を進化させるためのスケーラブルなフレームワークも提供する。
関連論文リスト
- Multi-student Diffusion Distillation for Better One-step Generators [29.751205880199855]
マルチスチューデント蒸留(Multi-Student Distillation、MSD)は、条件付き教師拡散モデルを複数の単段階発生器に蒸留するフレームワークである。
MSDは、複数の蒸留された学生を訓練し、より小さいサイズで、したがってより高速な推論を可能にした。
4人の同じサイズの学生を使って、MSDはワンステップ画像生成のための新しい最先端技術、ImageNet-64x64でFID 1.20、ゼロショットCOCO2014で8.20を設定。
論文 参考訳(メタデータ) (2024-10-30T17:54:56Z) - One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。