論文の概要: LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
- arxiv url: http://arxiv.org/abs/2311.05556v1
- Date: Thu, 9 Nov 2023 18:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:12:29.690410
- Title: LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
- Title(参考訳): LCM-LoRA: ユニバーサル安定拡散加速モジュール
- Authors: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen,
Apolin\'ario Passos, Longbo Huang, Jian Li, Hang Zhao
- Abstract要約: LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。
本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。
LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
- 参考スコア(独自算出の注目度): 52.8517132452467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.
- Abstract(参考訳): LCM(Latent Consistency Models)は、テキストから画像への生成作業を高速化し、最小の推論ステップで高品質な画像を生成する。
LCMは、事前訓練された潜在拡散モデル(LDM)から蒸留され、32A100GPUのトレーニング時間しか必要としない。
まず, SD-V1.5, SSD-1B, SDXLを含む安定拡散モデルにロラ蒸留を適用することにより, LCMの範囲を, メモリ消費が著しく少ない大型モデルに拡張し, 画像生成品質の向上を実現した。
第2に, LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
LCM-LoRAは、トレーニングなしで様々な安定拡散微調整モデルやLoRAに直接接続できるため、多様な画像生成タスクに普遍的に適用可能なアクセラレーターである。
DDIMやDPM-Solverのような従来の数値的なPF-ODEソルバと比較して、LCM-LoRAは強力な一般化能力を持つプラグインニューラルPF-ODEソルバと見なすことができる。
プロジェクトページ: https://github.com/luosiallen/latent-consistency-model
関連論文リスト
- Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Phased Consistency Model [80.31766777570058]
一貫性モデル(CM)は近年,拡散モデルの生成促進に大きく進展している。
しかし、遅延空間(LCM)における高解像度のテキスト条件画像生成への応用は、未だに不十分である。
本稿では、設計空間を一般化し、特定されたすべての制約に対処する位相整合モデル(PCM)を提案する。
論文 参考訳(メタデータ) (2024-05-28T17:47:19Z) - Latent Modulated Function for Computational Optimal Continuous Image Representation [20.678662838709542]
連続画像表現のための新しい遅延変調レンダリング(LMF)アルゴリズムを提案する。
本稿では,既存のINR法をLMFに変換することにより,計算コストを最大99.9%削減できることを示す。
実験により、既存のINRベースのメソッドをLMFに変換することで、推論を57倍まで削減し、最大76%のパラメータを節約できることが示された。
論文 参考訳(メタデータ) (2024-04-25T09:30:38Z) - Reward Guided Latent Consistency Distillation [86.8911705127924]
効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。
トレーニング中にLCDの出力と人間の好みを合わせることで品質損失を補償する。
論文 参考訳(メタデータ) (2024-03-16T22:14:56Z) - Boosting Latent Diffusion with Flow Matching [23.043115108005708]
フローマッチング(FM)はより高速なトレーニングと推論を提供するが、合成の多様性は低い。
拡散モデルと畳み込みデコーダの間にFMを導入することで高分解能画像合成が実現できることを示す。
我々は,計算コストを最小限に抑えて,最先端の高解像度画像合成を10242ドルで実現した。
論文 参考訳(メタデータ) (2023-12-12T15:30:24Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。