論文の概要: Open-Source Acceleration of Stable-Diffusion.cpp
- arxiv url: http://arxiv.org/abs/2412.05781v1
- Date: Sun, 08 Dec 2024 02:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:35.016474
- Title: Open-Source Acceleration of Stable-Diffusion.cpp
- Title(参考訳): 安定拡散.cppのオープンソース高速化
- Authors: Jingxu Ng, Cheng Lv, Pu Zhao, Wei Niu, Juyi Lin, Yanzhi Wang,
- Abstract要約: 安定拡散Turbo (Sd) は拡散モデルを高速化するための効率的な推論フレームワークである。
本研究では、Winogradアルゴリズムを利用して2次元畳み込み処理を高速化するSdの最適化版を提案する。
本フレームワークは,SDv1.4, v1.5, v2.1, SDXL, SDXL-Turboなど,様々な安定拡散モデルに対して,適切なエンドツーエンド結果を提供する。
- 参考スコア(独自算出の注目度): 28.832021276297386
- License:
- Abstract: Stable diffusion plays a crucial role in generating high-quality images. However, image generation is time-consuming and memory-intensive. To address this, stable-diffusion.cpp (Sdcpp) emerges as an efficient inference framework to accelerate the diffusion models. Although it is lightweight, the current implementation of ggml_conv_2d operator in Sdcpp is suboptimal, exhibiting both high inference latency and massive memory usage. To address this, in this work, we present an optimized version of Sdcpp leveraging the Winograd algorithm to accelerate 2D convolution operations, which is the primary bottleneck in the pipeline. By analyzing both dependent and independent computation graphs, we exploit the device's locality and parallelism to achieve substantial performance improvements. Our framework delivers correct end-to-end results across various stable diffusion models, including SDv1.4, v1.5, v2.1, SDXL, and SDXL-Turbo. Our evaluation results demonstrate a speedup up to 2.76x for individual convolutional layers and an inference speedup up to 4.79x for the overall image generation process, compared with the original Sdcpp. Homepage: https://github.com/SealAILab/stable-diffusion-cpp
- Abstract(参考訳): 安定拡散は高品質な画像を生成する上で重要な役割を果たす。
しかし、画像生成は時間がかかり、メモリが消費される。
これを解決するために、stable-diffusion.cpp (Sdcpp) は拡散モデルを加速する効率的な推論フレームワークとして現れる。
軽量ではあるが、現在のSdcppにおけるggml_conv_2d演算子の実装は、高い推論レイテンシと大規模なメモリ使用量の両方を示す、準最適である。
そこで本研究では、Winogradアルゴリズムを利用して2次元畳み込み処理を高速化するSdcppの最適化版を提案する。
従属計算グラフと独立計算グラフの両方を解析することにより、デバイスの局所性と並列性を利用して、大幅な性能向上を実現する。
本フレームワークは,SDv1.4, v1.5, v2.1, SDXL, SDXL-Turboなど,様々な安定拡散モデルに対して,適切なエンドツーエンド結果を提供する。
評価の結果,個々の畳み込み層では最大2.76倍,画像生成プロセスでは最大4.79倍の高速化が得られた。
Homepage: https://github.com/SealAILab/stable-diffusion-cpp
関連論文リスト
- COT Flow: Learning Optimal-Transport Image Sampling and Editing by Contrastive Pairs [7.542892664684078]
Contrastive Optimal Transport Flow (COT Flow) は、ゼロショット編集の柔軟性を向上し、高速かつ高品質な生成を実現する新しい手法である。
品質の面では、COT Flowは従来の最先端のイメージ・ツー・イメージ(I2I)翻訳法と比較して1ステップで競合結果を生成することができる。
COT Flowは、従来の最先端の未実装画像画像変換法(I2I)と比較して、競争力のある結果を生成することができる。
論文 参考訳(メタデータ) (2024-06-17T23:02:20Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation [2.693650249239372]
本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。
この手法は、COCO2014とCOCO 2017データセット上の画像生成のために、FIDとCLIP-Scoreの観点から最先端のパフォーマンスに達する。
この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$alpha$)などの異なるバックボーンの使用など、いくつかのタスクにまたがる。
論文 参考訳(メタデータ) (2024-06-04T14:23:27Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Clockwork Diffusion: Efficient Generation With Model-Step Distillation [42.01130983628078]
クロックワーク拡散(英: Clockwork Diffusion)は、1つ以上のステップで低解像度特徴写像を近似するために、前処理ステップからの計算を定期的に再利用する手法である。
画像生成と画像編集の両方において、Clockworkは計算の複雑さを大幅に減らし、知覚スコアを同等または改善することを示した。
論文 参考訳(メタデータ) (2023-12-13T13:30:27Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。
以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。
また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文 参考訳(メタデータ) (2022-01-02T18:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。