論文の概要: SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules
- arxiv url: http://arxiv.org/abs/2407.02031v1
- Date: Tue, 2 Jul 2024 07:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:24:25.247459
- Title: SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules
- Title(参考訳): SwiftDiffusion: アドオンモジュールを使った効率的な拡散モデル
- Authors: Suyi Li, Lingyun Yang, Xiaoxiao Jiang, Hanfeng Lu, Zhipeng Di, Weiyi Lu, Jiawei Chen, Kan Liu, Yinghao Yu, Tao Lan, Guodong Yang, Lin Qu, Liping Zhang, Wei Wang,
- Abstract要約: 我々は,安定な拡散モデルとアドオンモジュールを用いて,高品質な画像を効率よく生成するシステムSwiftDiffusionを提案する。
最先端のテキスト・ツー・イメージ配信システムと比較すると、SwiftDiffusionはレイテンシを最大5倍に削減し、スループットを最大2倍改善する。
- 参考スコア(独自算出の注目度): 9.361932702480361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper documents our characterization study and practices for serving text-to-image requests with stable diffusion models in production. We first comprehensively analyze inference request traces for commercial text-to-image applications. It commences with our observation that add-on modules, i.e., ControlNets and LoRAs, that augment the base stable diffusion models, are ubiquitous in generating images for commercial applications. Despite their efficacy, these add-on modules incur high loading overhead, prolong the serving latency, and swallow up expensive GPU resources. Driven by our characterization study, we present SwiftDiffusion, a system that efficiently generates high-quality images using stable diffusion models and add-on modules. To achieve this, SwiftDiffusion reconstructs the existing text-to-image serving workflow by identifying the opportunities for parallel computation and distributing ControlNet computations across multiple GPUs. Further, SwiftDiffusion thoroughly analyzes the dynamics of image generation and develops techniques to eliminate the overhead associated with LoRA loading and patching while preserving the image quality. Last, SwiftDiffusion proposes specialized optimizations in the backbone architecture of the stable diffusion models, which are also compatible with the efficient serving of add-on modules. Compared to state-of-the-art text-to-image serving systems, SwiftDiffusion reduces serving latency by up to 5x and improves serving throughput by up to 2x without compromising image quality.
- Abstract(参考訳): 本稿では,テキスト・ツー・イメージ・リクエストを安定な拡散モデルで実運用で提供するための特徴的研究と実践について述べる。
まず、商用のテキスト・ツー・イメージ・アプリケーションにおける推論要求トレースを包括的に分析する。
ベースとなる安定拡散モデルを拡張したアドオンモジュールであるControlNetsとLoRAsは、商用アプリケーション用の画像生成においてユビキタスである、という私たちの観察から始まります。
有効性にもかかわらず、これらのアドオンモジュールは高いロードオーバヘッドをもたらし、サービスレイテンシを長くし、高価なGPUリソースを飲み込む。
スウィフトディフュージョン(SwiftDiffusion)とは,安定な拡散モデルとアドオンモジュールを用いて,高品質な画像を効率よく生成するシステムである。
これを実現するために、SwiftDiffusionは、並列計算の機会を特定し、複数のGPUにまたがるControlNet計算を分散することにより、既存のテキスト・ツー・イメージ・サービスワークフローを再構築する。
さらに、SwiftDiffusionは、画像生成のダイナミクスを徹底的に分析し、画像品質を保ちながら、LoRAのロードとパッチに伴うオーバーヘッドを取り除く技術を開発した。
最後に、SwiftDiffusionは、安定した拡散モデルのバックボーンアーキテクチャにおける特別な最適化を提案している。
最先端のテキスト・ツー・イメージ配信システムと比較すると、SwiftDiffusionはレイテンシを最大5倍に削減し、スループットを最大2倍改善する。
関連論文リスト
- Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。
RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。
MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文 参考訳(メタデータ) (2023-11-29T11:01:38Z) - Effective Quantization for Diffusion Models on CPUs [5.419875683826296]
量子化(Quantization)は、ディープラーニングモデルを圧縮して効率を向上させる手法で、拡散モデルに適用する際の課題を提示する。
量子化学習と蒸留の両方を活用することで拡散モデルを定量化する新しい手法を提案する。
提案手法は,CPU上での推論効率を実証しながら,高画質な画像が得られることを示す。
論文 参考訳(メタデータ) (2023-11-02T13:14:01Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。
最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。
我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文 参考訳(メタデータ) (2022-11-29T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。