論文の概要: SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow
- arxiv url: http://arxiv.org/abs/2407.12718v2
- Date: Thu, 18 Jul 2024 03:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 11:38:46.576331
- Title: SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow
- Title(参考訳): SlimFlow: より小さな1ステップ拡散モデル
- Authors: Yuanzhi Zhu, Xingchao Liu, Qiang Liu,
- Abstract要約: 我々は, 強力な整流フローフレームワークに基づく, 小型かつ効率的な1ステップ拡散モデルを構築した。
我々は、FIDが5.02と15.7Mの1ステップ拡散モデルを訓練し、従来の最先端1ステップ拡散モデルよりも優れている。
- 参考スコア(独自算出の注目度): 24.213303324584906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models excel in high-quality generation but suffer from slow inference due to iterative sampling. While recent methods have successfully transformed diffusion models into one-step generators, they neglect model size reduction, limiting their applicability in compute-constrained scenarios. This paper aims to develop small, efficient one-step diffusion models based on the powerful rectified flow framework, by exploring joint compression of inference steps and model size. The rectified flow framework trains one-step generative models using two operations, reflow and distillation. Compared with the original framework, squeezing the model size brings two new challenges: (1) the initialization mismatch between large teachers and small students during reflow; (2) the underperformance of naive distillation on small student models. To overcome these issues, we propose Annealing Reflow and Flow-Guided Distillation, which together comprise our SlimFlow framework. With our novel framework, we train a one-step diffusion model with an FID of 5.02 and 15.7M parameters, outperforming the previous state-of-the-art one-step diffusion model (FID=6.47, 19.4M parameters) on CIFAR10. On ImageNet 64$\times$64 and FFHQ 64$\times$64, our method yields small one-step diffusion models that are comparable to larger models, showcasing the effectiveness of our method in creating compact, efficient one-step diffusion models.
- Abstract(参考訳): 拡散モデルは高品質な生成では優れているが、反復サンプリングによる推論が遅い。
最近の手法は拡散モデルをワンステップジェネレータに変換することに成功したが、モデルサイズ削減を無視し、計算制約のあるシナリオで適用性を制限する。
本稿では,推論ステップとモデルサイズの共同圧縮を探索し,強力な整流フローの枠組みに基づく小型かつ効率的な1段階拡散モデルの構築を目的とする。
修正フローフレームワークは、リフローと蒸留という2つの操作を使用して、一段階の生成モデルを訓練する。
原型フレームワークと比較して,モデルサイズを絞った場合,(1)大学生と小学生のリフローにおける初期化ミスマッチ,(2)小学生モデルにおけるナイーブ蒸留の過小評価,という2つの新たな課題が生じる。
これらの問題を克服するために、私たちはSlimFlowフレームワークを構成するAnnealing ReflowとFlow-Guided Distillationを提案します。
CIFAR10の1段階拡散モデル(FID=6.47, 19.4Mパラメータ)よりも優れたFIDと15.7Mパラメータのワンステップ拡散モデルをトレーニングした。
ImageNet 64$\times$64 と FFHQ 64$\times$64 では,より大規模なモデルに匹敵する小さな1ステップ拡散モデルが得られる。
関連論文リスト
- One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。
ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。
蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文 参考訳(メタデータ) (2024-10-16T13:34:40Z) - Distillation of Discrete Diffusion through Dimensional Correlations [21.078500510691747]
離散拡散における「ミクチャー」モデルは、拡張性を維持しながら次元相関を扱える。
CIFAR-10データセットで事前学習した連続時間離散拡散モデルを蒸留することにより,提案手法が実際に動作することを実証的に実証した。
論文 参考訳(メタデータ) (2024-10-11T10:53:03Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Block Pruning For Faster Transformers [89.70392810063247]
小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。
このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
論文 参考訳(メタデータ) (2021-09-10T12:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。