論文の概要: BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion
- arxiv url: http://arxiv.org/abs/2305.15798v3
- Date: Thu, 16 Nov 2023 08:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 22:47:13.374517
- Title: BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion
- Title(参考訳): BK-SDM:安定拡散の軽量・高速・チープ版
- Authors: Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi
- Abstract要約: 安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は高い計算要求を伴う。
近年の研究では、サンプリングのステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。
低コスト汎用T2Iにおけるブロックプレーニングと特徴蒸留の驚くべき可能性を明らかにする。
- 参考スコア(独自算出の注目度): 3.1092085121563526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) generation with Stable Diffusion models (SDMs) involves
high computing demands due to billion-scale parameters. To enhance efficiency,
recent studies have reduced sampling steps and applied network quantization
while retaining the original architectures. The lack of architectural reduction
attempts may stem from worries over expensive retraining for such massive
models. In this work, we uncover the surprising potential of block pruning and
feature distillation for low-cost general-purpose T2I. By removing several
residual and attention blocks from the U-Net of SDMs, we achieve 30%~50%
reduction in model size, MACs, and latency. We show that distillation
retraining is effective even under limited resources: using only 13 A100 days
and a tiny dataset, our compact models can imitate the original SDMs (v1.4 and
v2.1-base with over 6,000 A100 days). Benefiting from the transferred
knowledge, our BK-SDMs deliver competitive results on zero-shot MS-COCO against
larger multi-billion parameter models. We further demonstrate the applicability
of our lightweight backbones in personalized generation and image-to-image
translation. Deployment of our models on edge devices attains 4-second
inference. We hope this work can help build small yet powerful diffusion models
with feasible training budgets. Code and models can be found at:
https://github.com/Nota-NetsPresso/BK-SDM
- Abstract(参考訳): 安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は、数十億のパラメータによる高い計算要求を伴う。
効率を向上させるため、最近の研究ではサンプリングステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。
アーキテクチャ削減の試みの欠如は、このような大規模なモデルに対する高価な再トレーニングに対する懸念から生じる可能性がある。
本研究では,低コスト汎用T2Iのブロックプレーニングと特徴蒸留の可能性を明らかにする。
SDMのU-Netから残差ブロックや注目ブロックを取り除き、モデルサイズ、MAC、遅延を30%から50%削減する。
わずか13a100日と小さなデータセットを使用して、我々のコンパクトモデルは元のsdm(v1.4とv2.1ベースで6,000a100日以上)を模倣することができる。
我々のBK-SDMは、転送された知識により、より大規模なマルチビリオンパラメータモデルに対するゼロショットMS-COCO上での競合結果を提供する。
さらに、パーソナライズされた生成と画像間翻訳における軽量なバックボーンの適用性を示す。
エッジデバイスにモデルをデプロイすることで,4秒の推論が可能になります。
この作業が、トレーニング予算が実現可能な、小規模で強力な拡散モデルの構築に役立つことを願っています。
コードとモデルは、https://github.com/nota-netspresso/bk-sdmにある。
関連論文リスト
- LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer
Level Loss [6.171638819257848]
SDXL (Stable Diffusion XL) は、その汎用性とトップノート画像の品質のために、オープンソーステキスト・イメージ・モデル(T2I)として最高のものとなっている。
SDXLモデルの計算要求に効果的に対処することは、幅広いリーチと適用性に不可欠である。
本稿では,Segmind Stable Diffusion (SSD-1B) とSegmind-Vega (Segmind-Vega) の2つのスケールダウン変種を紹介した。
論文 参考訳(メタデータ) (2024-01-05T07:21:46Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。