論文の概要: SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules
- arxiv url: http://arxiv.org/abs/2407.02031v1
- Date: Tue, 2 Jul 2024 07:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:24:25.247459
- Title: SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules
- Title(参考訳): SwiftDiffusion: アドオンモジュールを使った効率的な拡散モデル
- Authors: Suyi Li, Lingyun Yang, Xiaoxiao Jiang, Hanfeng Lu, Zhipeng Di, Weiyi Lu, Jiawei Chen, Kan Liu, Yinghao Yu, Tao Lan, Guodong Yang, Lin Qu, Liping Zhang, Wei Wang,
- Abstract要約: 我々は,安定な拡散モデルとアドオンモジュールを用いて,高品質な画像を効率よく生成するシステムSwiftDiffusionを提案する。
最先端のテキスト・ツー・イメージ配信システムと比較すると、SwiftDiffusionはレイテンシを最大5倍に削減し、スループットを最大2倍改善する。
- 参考スコア(独自算出の注目度): 9.361932702480361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper documents our characterization study and practices for serving text-to-image requests with stable diffusion models in production. We first comprehensively analyze inference request traces for commercial text-to-image applications. It commences with our observation that add-on modules, i.e., ControlNets and LoRAs, that augment the base stable diffusion models, are ubiquitous in generating images for commercial applications. Despite their efficacy, these add-on modules incur high loading overhead, prolong the serving latency, and swallow up expensive GPU resources. Driven by our characterization study, we present SwiftDiffusion, a system that efficiently generates high-quality images using stable diffusion models and add-on modules. To achieve this, SwiftDiffusion reconstructs the existing text-to-image serving workflow by identifying the opportunities for parallel computation and distributing ControlNet computations across multiple GPUs. Further, SwiftDiffusion thoroughly analyzes the dynamics of image generation and develops techniques to eliminate the overhead associated with LoRA loading and patching while preserving the image quality. Last, SwiftDiffusion proposes specialized optimizations in the backbone architecture of the stable diffusion models, which are also compatible with the efficient serving of add-on modules. Compared to state-of-the-art text-to-image serving systems, SwiftDiffusion reduces serving latency by up to 5x and improves serving throughput by up to 2x without compromising image quality.
- Abstract(参考訳): 本稿では,テキスト・ツー・イメージ・リクエストを安定な拡散モデルで実運用で提供するための特徴的研究と実践について述べる。
まず、商用のテキスト・ツー・イメージ・アプリケーションにおける推論要求トレースを包括的に分析する。
ベースとなる安定拡散モデルを拡張したアドオンモジュールであるControlNetsとLoRAsは、商用アプリケーション用の画像生成においてユビキタスである、という私たちの観察から始まります。
有効性にもかかわらず、これらのアドオンモジュールは高いロードオーバヘッドをもたらし、サービスレイテンシを長くし、高価なGPUリソースを飲み込む。
スウィフトディフュージョン(SwiftDiffusion)とは,安定な拡散モデルとアドオンモジュールを用いて,高品質な画像を効率よく生成するシステムである。
これを実現するために、SwiftDiffusionは、並列計算の機会を特定し、複数のGPUにまたがるControlNet計算を分散することにより、既存のテキスト・ツー・イメージ・サービスワークフローを再構築する。
さらに、SwiftDiffusionは、画像生成のダイナミクスを徹底的に分析し、画像品質を保ちながら、LoRAのロードとパッチに伴うオーバーヘッドを取り除く技術を開発した。
最後に、SwiftDiffusionは、安定した拡散モデルのバックボーンアーキテクチャにおける特別な最適化を提案している。
最先端のテキスト・ツー・イメージ配信システムと比較すると、SwiftDiffusionはレイテンシを最大5倍に削減し、スループットを最大2倍改善する。
関連論文リスト
- Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.43106794519193]
本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文 参考訳(メタデータ) (2024-10-12T07:04:32Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。
我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。
我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文 参考訳(メタデータ) (2024-03-18T17:59:40Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models [4.232258232565518]
テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で、大幅な進歩を示す。
LCM-LoRAは、様々なモデルで一度トレーニング可能で、普遍性を提供するが、アクセラレーション前後で生成されたコンテンツの一貫性を確保することはめったにない。
本稿では,革新的アクセラレーションモジュールであるSpeedUpNet(SUN)を提案し,普遍性と一貫性の課題に対処する。
論文 参考訳(メタデータ) (2023-12-13T09:42:04Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。