論文の概要: MLCM: Multistep Consistency Distillation of Latent Diffusion Model
- arxiv url: http://arxiv.org/abs/2406.05768v1
- Date: Sun, 9 Jun 2024 12:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:07:23.205173
- Title: MLCM: Multistep Consistency Distillation of Latent Diffusion Model
- Title(参考訳): MLCM:潜在拡散モデルの多段階連続蒸留
- Authors: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu,
- Abstract要約: MLCM(Multistep Latent Consistency Models)は、低コストで高品質な画像合成のためのアプローチである。
MLCMは2~8ステップのみのサンプリングで高品質で楽しい画像を生成することができることを示す。
また、制御可能な生成、画像スタイル転送、中国画像生成を含むアプリケーションにおけるMLCMの汎用性を示す。
- 参考スコア(独自算出の注目度): 19.175166103171986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling large latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face a dilemma where they either (i) depend on multiple individual distilled models for different sampling budgets, or (ii) sacrifice generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8) sampling steps. To address these, we extend the recent multistep consistency distillation (MCD) strategy to representative LDMs, establishing the Multistep Latent Consistency Models (MLCMs) approach for low-cost high-quality image synthesis. MLCM serves as a unified model for various sampling steps due to the promise of MCD. We further augment MCD with a progressive training strategy to strengthen inter-segment consistency to boost the quality of few-step generations. We take the states from the sampling trajectories of the teacher model as training data for MLCMs to lift the requirements for high-quality training datasets and to bridge the gap between the training and inference of the distilled model. MLCM is compatible with preference learning strategies for further improvement of visual quality and aesthetic appeal. Empirically, MLCM can generate high-quality, delightful images with only 2-8 sampling steps. On the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of 33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps, substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and 8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in applications including controllable generation, image style transfer, and Chinese-to-image generation.
- Abstract(参考訳): 大きな潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。
しかし、既存の手法のほとんどはジレンマに直面している。
一 異なるサンプリング予算のための複数の個別蒸留モデルに依存し、又は
(i)限られた(eg,2-4)および/または適度な(eg,5-8)サンプリングステップによる犠牲生成の品質。
これらの問題に対処するため、我々は最近の多段階連続蒸留(MCD)戦略を代表的LCDに拡張し、低コストで高品質な画像合成を行うための多段階潜時整合モデル(MLCM)アプローチを確立した。
MLCMは、MDDの約束により、様々なサンプリングステップの統一モデルとして機能する。
段階間整合性を高めるため, 段階間整合性を高め, 段階間整合性を高めるためのプログレッシブトレーニング戦略により, MCDをさらに強化する。
我々は,教師モデルのサンプリング軌跡から得られた状態をMLCMのトレーニングデータとして捉え,高品質なトレーニングデータセットの要件を引き上げ,蒸留モデルのトレーニングと推論のギャップを埋める。
MLCMは、視覚的品質と美的魅力をさらに向上させるために、嗜好学習戦略と互換性がある。
実証的に、MLCMは2~8ステップのサンプリングで高品質で楽しい画像を生成することができる。
MSCOCO-2017 5Kベンチマークでは、SDXLから蒸留したMLCMは、CLIPスコア33.30、Aesthetic Score6.19、Image Reward1.20の4ステップで、4ステップのLCM[23]、8ステップのSDXL-Lightning[17]、8ステップのHyperSD[33]を大きく上回る。
また、制御可能な生成、画像スタイル転送、中国画像生成を含むアプリケーションにおけるMLCMの汎用性を示す。
関連論文リスト
- EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - EdgeFusion: On-Device Text-to-Image Generation [3.3345550849564836]
我々はテキスト・ツー・イメージ生成のためのコンパクトSD変種BK-SDMを開発した。
我々は、リソース制限エッジデバイス上で1秒未満のレイテンシで、わずか2ステップで、フォトリアリスティックなテキスト整列画像の高速生成を実現する。
論文 参考訳(メタデータ) (2024-04-18T06:02:54Z) - Reward Guided Latent Consistency Distillation [86.8911705127924]
効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。
トレーニング中にLCDの出力と人間の好みを合わせることで品質損失を補償する。
論文 参考訳(メタデータ) (2024-03-16T22:14:56Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - LCM-LoRA: A Universal Stable-Diffusion Acceleration Module [52.8517132452467]
LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。
本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。
LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
論文 参考訳(メタデータ) (2023-11-09T18:04:15Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Deep Learning Approach for Dynamic Sampling for Multichannel Mass
Spectrometry Imaging [4.142096610640108]
動的サンプリング(DLADS)のためのディープラーニングアプローチ
動的サンプリング(SLADS-LS)のための教師付き学習手法
Multi-Layer Perceptron (MLP) Network (SLADS-Net)
論文 参考訳(メタデータ) (2022-10-24T17:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。