論文の概要: LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
- arxiv url: http://arxiv.org/abs/2311.05556v1
- Date: Thu, 9 Nov 2023 18:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:12:29.690410
- Title: LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
- Title(参考訳): LCM-LoRA: ユニバーサル安定拡散加速モジュール
- Authors: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen,
Apolin\'ario Passos, Longbo Huang, Jian Li, Hang Zhao
- Abstract要約: LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。
本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。
LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
- 参考スコア(独自算出の注目度): 52.8517132452467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.
- Abstract(参考訳): LCM(Latent Consistency Models)は、テキストから画像への生成作業を高速化し、最小の推論ステップで高品質な画像を生成する。
LCMは、事前訓練された潜在拡散モデル(LDM)から蒸留され、32A100GPUのトレーニング時間しか必要としない。
まず, SD-V1.5, SSD-1B, SDXLを含む安定拡散モデルにロラ蒸留を適用することにより, LCMの範囲を, メモリ消費が著しく少ない大型モデルに拡張し, 画像生成品質の向上を実現した。
第2に, LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
LCM-LoRAは、トレーニングなしで様々な安定拡散微調整モデルやLoRAに直接接続できるため、多様な画像生成タスクに普遍的に適用可能なアクセラレーターである。
DDIMやDPM-Solverのような従来の数値的なPF-ODEソルバと比較して、LCM-LoRAは強力な一般化能力を持つプラグインニューラルPF-ODEソルバと見なすことができる。
プロジェクトページ: https://github.com/luosiallen/latent-consistency-model
関連論文リスト
- Latent Modulated Function for Computational Optimal Continuous Image Representation [20.678662838709542]
連続画像表現のための新しい遅延変調レンダリング(LMF)アルゴリズムを提案する。
本稿では,既存のINR法をLMFに変換することにより,計算コストを最大99.9%削減できることを示す。
実験により、既存のINRベースのメソッドをLMFに変換することで、推論を57倍まで削減し、最大76%のパラメータを節約できることが示された。
論文 参考訳(メタデータ) (2024-04-25T09:30:38Z) - EdgeFusion: On-Device Text-to-Image Generation [3.3345550849564836]
我々はテキスト・ツー・イメージ生成のためのコンパクトSD変種BK-SDMを開発した。
我々は、リソース制限エッジデバイス上で1秒未満のレイテンシで、わずか2ステップで、フォトリアリスティックなテキスト整列画像の高速生成を実現する。
論文 参考訳(メタデータ) (2024-04-18T06:02:54Z) - Reward Guided Latent Consistency Distillation [86.8911705127924]
効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。
トレーニング中にLCDの出力と人間の好みを合わせることで品質損失を補償する。
論文 参考訳(メタデータ) (2024-03-16T22:14:56Z) - Boosting Latent Diffusion with Flow Matching [23.043115108005708]
フローマッチング(FM)はより高速なトレーニングと推論を提供するが、合成の多様性は低い。
拡散モデルと畳み込みデコーダの間にFMを導入することで高分解能画像合成が実現できることを示す。
我々は,計算コストを最小限に抑えて,最先端の高解像度画像合成を10242ドルで実現した。
論文 参考訳(メタデータ) (2023-12-12T15:30:24Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs [49.822063966687175]
拡散に基づく言語モデルは、自己回帰型LMに代わる有望な選択肢として浮上している。
我々は最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する方法を提案する。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
論文 参考訳(メタデータ) (2023-05-24T06:22:14Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。
IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。
スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文 参考訳(メタデータ) (2023-03-29T07:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。