論文の概要: One-Step Diffusion Distillation via Deep Equilibrium Models
- arxiv url: http://arxiv.org/abs/2401.08639v1
- Date: Tue, 12 Dec 2023 07:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 09:52:39.289973
- Title: One-Step Diffusion Distillation via Deep Equilibrium Models
- Title(参考訳): 深部平衡モデルによる1ステップ拡散蒸留
- Authors: Zhengyang Geng and Ashwini Pokle and J. Zico Kolter
- Abstract要約: 本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 64.11782639697883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models excel at producing high-quality samples but naively require
hundreds of iterations, prompting multiple attempts to distill the generation
process into a faster network. However, many existing approaches suffer from a
variety of challenges: the process for distillation training can be complex,
often requiring multiple training stages, and the resulting models perform
poorly when utilized in single-step generative applications. In this paper, we
introduce a simple yet effective means of distilling diffusion models directly
from initial noise to the resulting image. Of particular importance to our
approach is to leverage a new Deep Equilibrium (DEQ) model as the distilled
architecture: the Generative Equilibrium Transformer (GET). Our method enables
fully offline training with just noise/image pairs from the diffusion model
while achieving superior performance compared to existing one-step methods on
comparable training budgets. We demonstrate that the DEQ architecture is
crucial to this capability, as GET matches a $5\times$ larger ViT in terms of
FID scores while striking a critical balance of computational cost and image
quality. Code, checkpoints, and datasets are available.
- Abstract(参考訳): 拡散モデルは高品質なサンプルを生成するのに優れているが、数百回の反復を必要とするため、より高速なネットワークに生成プロセスを蒸留する試みが複数おこなわれる。
しかし、既存の多くのアプローチは様々な課題に悩まされており、蒸留訓練のプロセスは複雑であり、しばしば複数の訓練段階を必要とする。
本稿では,初期雑音から得られた画像に直接拡散モデルを蒸留する簡易かつ効果的な方法を提案する。
このアプローチにおいて特に重要なのは、新しいDeep Equilibrium(DEQ)モデルを蒸留アーキテクチャとして活用することである。
提案手法は,拡散モデルからのノイズ/イメージペアのみによる完全オフライントレーニングを可能とし,既存の訓練予算のワンステップ手法に比べて優れた性能を実現する。
GET は FID スコアの点で 5 倍の ViT と一致し,計算コストと画像品質の重要なバランスを保ちながら,DEC アーキテクチャがこの機能に不可欠であることを実証する。
コード、チェックポイント、データセットが利用可能だ。
関連論文リスト
- E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image
Translation [71.7970885247162]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Deep Equilibrium Approaches to Diffusion Models [1.4275201654498746]
拡散に基づく生成モデルは高品質な画像を生成するのに極めて効果的である。
これらのモデルは通常、高忠実度画像を生成するために長いサンプリングチェーンを必要とする。
我々は、異なる観点からの拡散モデル、すなわち(深い)平衡(DEQ)固定点モデルについて考察する。
論文 参考訳(メタデータ) (2022-10-23T22:02:19Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。