Fugu-MT 論文翻訳(概要): LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

論文の概要: LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

arxiv url: http://arxiv.org/abs/2311.05556v1
Date: Thu, 9 Nov 2023 18:04:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 14:12:29.690410
Title: LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
Title（参考訳）: LCM-LoRA: ユニバーサル安定拡散加速モジュール
Authors: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolin\'ario Passos, Longbo Huang, Jian Li, Hang Zhao
Abstract要約: LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。 LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
参考スコア（独自算出の注目度）: 52.8517132452467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Latent Consistency Models (LCMs) have achieved impressive performance in accelerating text-to-image generative tasks, producing high-quality images with minimal inference steps. LCMs are distilled from pre-trained latent diffusion models (LDMs), requiring only ~32 A100 GPU training hours. This report further extends LCMs' potential in two aspects: First, by applying LoRA distillation to Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded LCM's scope to larger models with significantly less memory consumption, achieving superior image generation quality. Second, we identify the LoRA parameters obtained through LCM distillation as a universal Stable-Diffusion acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into various Stable-Diffusion fine-tuned models or LoRAs without training, thus representing a universally applicable accelerator for diverse image generation tasks. Compared with previous numerical PF-ODE solvers such as DDIM, DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that possesses strong generalization abilities. Project page: https://github.com/luosiallen/latent-consistency-model.
Abstract（参考訳）: LCM(Latent Consistency Models)は、テキストから画像への生成作業を高速化し、最小の推論ステップで高品質な画像を生成する。 LCMは、事前訓練された潜在拡散モデル(LDM)から蒸留され、32A100GPUのトレーニング時間しか必要としない。まず, SD-V1.5, SSD-1B, SDXLを含む安定拡散モデルにロラ蒸留を適用することにより, LCMの範囲を, メモリ消費が著しく少ない大型モデルに拡張し, 画像生成品質の向上を実現した。第2に, LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。 LCM-LoRAは、トレーニングなしで様々な安定拡散微調整モデルやLoRAに直接接続できるため、多様な画像生成タスクに普遍的に適用可能なアクセラレーターである。 DDIMやDPM-Solverのような従来の数値的なPF-ODEソルバと比較して、LCM-LoRAは強力な一般化能力を持つプラグインニューラルPF-ODEソルバと見なすことができる。プロジェクトページ: https://github.com/luosiallen/latent-consistency-model

関連論文リスト

AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。提案手法は画像生成のパーフェマンスを大幅に改善する。
論文参考訳（メタデータ） (2025-08-04T06:36:00Z)
Cached Multi-Lora Composition for Multi-Concept Image Generation [10.433033595844442]
Low-Rank Adaptation (LoRA) はテキスト・ツー・イメージ・モデルにおいて広く採用されている手法である。現在のアプローチでは、マルチコンセプト画像生成のためにこれらのLoRAを構成する際に大きな課題に直面している。我々は,複数のLoRAを効率的に統合するために設計された,新しいトレーニングフリーフレームワークであるCached Multi-LoRA(CMLoRA)を紹介した。
論文参考訳（メタデータ） (2025-02-07T13:41:51Z)
One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文参考訳（メタデータ） (2025-02-04T04:11:29Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
Phased Consistency Model [80.31766777570058]
一貫性モデル(CM)は近年,拡散モデルの生成促進に大きく進展している。しかし、遅延空間(LCM)における高解像度のテキスト条件画像生成への応用は、未だに不十分である。本稿では、設計空間を一般化し、特定されたすべての制約に対処する位相整合モデル(PCM)を提案する。
論文参考訳（メタデータ） (2024-05-28T17:47:19Z)
Latent Modulated Function for Computational Optimal Continuous Image Representation [20.678662838709542]
連続画像表現のための新しい遅延変調レンダリング(LMF)アルゴリズムを提案する。本稿では,既存のINR法をLMFに変換することにより,計算コストを最大99.9%削減できることを示す。実験により、既存のINRベースのメソッドをLMFに変換することで、推論を57倍まで削減し、最大76%のパラメータを節約できることが示された。
論文参考訳（メタデータ） (2024-04-25T09:30:38Z)
Reward Guided Latent Consistency Distillation [86.8911705127924]
効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。トレーニング中にLCDの出力と人間の好みを合わせることで品質損失を補償する。
論文参考訳（メタデータ） (2024-03-16T22:14:56Z)
Boosting Latent Diffusion with Flow Matching [23.043115108005708]
フローマッチング(FM)はより高速なトレーニングと推論を提供するが、合成の多様性は低い。拡散モデルと畳み込みデコーダの間にFMを導入することで高分解能画像合成が実現できることを示す。我々は,計算コストを最小限に抑えて,最先端の高解像度画像合成を10242ドルで実現した。
論文参考訳（メタデータ） (2023-12-12T15:30:24Z)
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文参考訳（メタデータ） (2023-10-06T17:11:58Z)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文参考訳（メタデータ） (2023-07-15T04:37:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。