論文の概要: On Architectural Compression of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.15798v1
- Date: Thu, 25 May 2023 07:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:46:39.223360
- Title: On Architectural Compression of Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのアーキテクチャ圧縮について
- Authors: Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi
- Abstract要約: 本研究は,ブロック除去知識蒸留SDM(BK-SDM)の導入による汎用T2I合成のための古典的アーキテクチャ圧縮のパワーを強調した。
1つのA100 GPU上で0.22MLAIONペア(フルトレーニングペアの0.1%以下)で蒸留ベースの事前トレーニングを行う。
我々のコンパクトモデルでは、転送された知識の恩恵を受け、ゼロショットMS-COCOベンチマークでより大きなマルチビリオンパラメータモデルと競合する結果を得ることで、元のSDMを模倣することができる。
- 参考スコア(独自算出の注目度): 4.568911586155097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exceptional text-to-image (T2I) generation results of Stable Diffusion models
(SDMs) come with substantial computational demands. To resolve this issue,
recent research on efficient SDMs has prioritized reducing the number of
sampling steps and utilizing network quantization. Orthogonal to these
directions, this study highlights the power of classical architectural
compression for general-purpose T2I synthesis by introducing block-removed
knowledge-distilled SDMs (BK-SDMs). We eliminate several residual and attention
blocks from the U-Net of SDMs, obtaining over a 30% reduction in the number of
parameters, MACs per sampling step, and latency. We conduct distillation-based
pretraining with only 0.22M LAION pairs (fewer than 0.1% of the full training
pairs) on a single A100 GPU. Despite being trained with limited resources, our
compact models can imitate the original SDM by benefiting from transferred
knowledge and achieve competitive results against larger multi-billion
parameter models on the zero-shot MS-COCO benchmark. Moreover, we demonstrate
the applicability of our lightweight pretrained models in personalized
generation with DreamBooth finetuning.
- Abstract(参考訳): 安定拡散モデル(SDM)の例外テキスト・トゥ・イメージ(T2I)生成結果には、かなりの計算要求がある。
この問題を解決するため、近年の効率的なSDMの研究はサンプリングステップの削減とネットワーク量子化の利用を優先している。
本研究は,ブロック除去された知識蒸留SDM(BK-SDM)を導入することにより,汎用T2I合成のための古典的アーキテクチャ圧縮の力を強調する。
我々は,SDMのU-Netから残差や注意ブロックを除去し,パラメータ数,サンプリングステップ毎のMAC数,レイテンシを30%以上削減する。
1つのA100 GPU上で0.22MLAIONペア(フルトレーニングペアの0.1%以下)で蒸留ベースの事前トレーニングを行う。
限られた資源で訓練されているにもかかわらず、我々のコンパクトモデルは、転送された知識の恩恵を受け、ゼロショットMS-COCOベンチマーク上のより大きなマルチビリオンパラメータモデルに対して競合する結果を得ることにより、元のSDMを模倣することができる。
さらに,dreambooth finetuningを用いたパーソナライズ生成における軽量事前学習モデルの適用性を示す。
関連論文リスト
- LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer
Level Loss [6.171638819257848]
SDXL (Stable Diffusion XL) は、その汎用性とトップノート画像の品質のために、オープンソーステキスト・イメージ・モデル(T2I)として最高のものとなっている。
SDXLモデルの計算要求に効果的に対処することは、幅広いリーチと適用性に不可欠である。
本稿では,Segmind Stable Diffusion (SSD-1B) とSegmind-Vega (Segmind-Vega) の2つのスケールダウン変種を紹介した。
論文 参考訳(メタデータ) (2024-01-05T07:21:46Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。