論文の概要: One-Step Diffusion Distillation via Deep Equilibrium Models
- arxiv url: http://arxiv.org/abs/2401.08639v1
- Date: Tue, 12 Dec 2023 07:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 09:52:39.289973
- Title: One-Step Diffusion Distillation via Deep Equilibrium Models
- Title(参考訳): 深部平衡モデルによる1ステップ拡散蒸留
- Authors: Zhengyang Geng and Ashwini Pokle and J. Zico Kolter
- Abstract要約: 本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 64.11782639697883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models excel at producing high-quality samples but naively require
hundreds of iterations, prompting multiple attempts to distill the generation
process into a faster network. However, many existing approaches suffer from a
variety of challenges: the process for distillation training can be complex,
often requiring multiple training stages, and the resulting models perform
poorly when utilized in single-step generative applications. In this paper, we
introduce a simple yet effective means of distilling diffusion models directly
from initial noise to the resulting image. Of particular importance to our
approach is to leverage a new Deep Equilibrium (DEQ) model as the distilled
architecture: the Generative Equilibrium Transformer (GET). Our method enables
fully offline training with just noise/image pairs from the diffusion model
while achieving superior performance compared to existing one-step methods on
comparable training budgets. We demonstrate that the DEQ architecture is
crucial to this capability, as GET matches a $5\times$ larger ViT in terms of
FID scores while striking a critical balance of computational cost and image
quality. Code, checkpoints, and datasets are available.
- Abstract(参考訳): 拡散モデルは高品質なサンプルを生成するのに優れているが、数百回の反復を必要とするため、より高速なネットワークに生成プロセスを蒸留する試みが複数おこなわれる。
しかし、既存の多くのアプローチは様々な課題に悩まされており、蒸留訓練のプロセスは複雑であり、しばしば複数の訓練段階を必要とする。
本稿では,初期雑音から得られた画像に直接拡散モデルを蒸留する簡易かつ効果的な方法を提案する。
このアプローチにおいて特に重要なのは、新しいDeep Equilibrium(DEQ)モデルを蒸留アーキテクチャとして活用することである。
提案手法は,拡散モデルからのノイズ/イメージペアのみによる完全オフライントレーニングを可能とし,既存の訓練予算のワンステップ手法に比べて優れた性能を実現する。
GET は FID スコアの点で 5 倍の ViT と一致し,計算コストと画像品質の重要なバランスを保ちながら,DEC アーキテクチャがこの機能に不可欠であることを実証する。
コード、チェックポイント、データセットが利用可能だ。
関連論文リスト
- One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。
ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。
蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文 参考訳(メタデータ) (2024-10-16T13:34:40Z) - Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。