論文の概要: KOALA: Self-Attention Matters in Knowledge Distillation of Latent
Diffusion Models for Memory-Efficient and Fast Image Synthesis
- arxiv url: http://arxiv.org/abs/2312.04005v1
- Date: Thu, 7 Dec 2023 02:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:13:51.611246
- Title: KOALA: Self-Attention Matters in Knowledge Distillation of Latent
Diffusion Models for Memory-Efficient and Fast Image Synthesis
- Title(参考訳): KOALA: メモリ効率・高速画像合成のための潜在拡散モデルの知識蒸留における自己注意事項
- Authors: Youngwan Lee and Kwanyong Park and Yoorhim Cho and Yong-Ju Lee and
Sung Ju Hwang
- Abstract要約: SDXLの知識を蒸留して得られたテキスト・画像合成のための効率的な潜時拡散モデルを提案する。
KOALA-1B &-700Mと呼ばれる効率的なT2Iモデルを構築し、SDXLモデルの54%と69%のモデルサイズを削減した。
- 参考スコア(独自算出の注目度): 56.242024398553355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stable diffusion is the mainstay of the text-to-image (T2I) synthesis in the
community due to its generation performance and open-source nature. Recently,
Stable Diffusion XL (SDXL), the successor of stable diffusion, has received a
lot of attention due to its significant performance improvements with a higher
resolution of 1024x1024 and a larger model. However, its increased computation
cost and model size require higher-end hardware(e.g., bigger VRAM GPU) for
end-users, incurring higher costs of operation. To address this problem, in
this work, we propose an efficient latent diffusion model for text-to-image
synthesis obtained by distilling the knowledge of SDXL. To this end, we first
perform an in-depth analysis of the denoising U-Net in SDXL, which is the main
bottleneck of the model, and then design a more efficient U-Net based on the
analysis. Secondly, we explore how to effectively distill the generation
capability of SDXL into an efficient U-Net and eventually identify four
essential factors, the core of which is that self-attention is the most
important part. With our efficient U-Net and self-attention-based knowledge
distillation strategy, we build our efficient T2I models, called KOALA-1B &
-700M, while reducing the model size up to 54% and 69% of the original SDXL
model. In particular, the KOALA-700M is more than twice as fast as SDXL while
still retaining a decent generation quality. We hope that due to its balanced
speed-performance tradeoff, our KOALA models can serve as a cost-effective
alternative to SDXL in resource-constrained environments.
- Abstract(参考訳): 安定拡散は、コミュニティにおけるテキスト・ツー・イメージ(T2I)合成の主要な基盤である。
近年,安定拡散の後継となる安定拡散XL (SDXL) は1024×1024の高分解能とより大きなモデルで大幅な性能向上を達成し,多くの注目を集めている。
しかし、その計算コストとモデルサイズの増加は、エンドユーザーのためのハイエンドハードウェア(例えば、より大きなVRAM GPU)を必要とし、高い演算コストをもたらす。
そこで本研究では,SDXLの知識を蒸留して得られたテキスト・画像合成のための効率的な潜時拡散モデルを提案する。
この目的のために,我々はまず,モデルの主なボトルネックであるsdxlにおける消音u-netの詳細な解析を行い,分析に基づいてより効率的なu-netを設計する。
次に、SDXLの生成能力を効率的なU-Netに効果的に蒸留する方法を検討し、最終的には4つの重要な要因を同定する。
効率的なU-Netと自己注意型知識蒸留戦略により,KOALA-1B &-700Mと呼ばれる効率的なT2Iモデルを構築し,SDXLモデルの54%と69%のモデルサイズを削減した。
特にKoALA-700MはSDXLの2倍以上の速さで、それでも良好な世代品質を維持している。
バランスの取れた速度性能のトレードオフにより,我々のKOALAモデルは資源制約環境におけるSDXLの代替として費用対効果が期待できる。
関連論文リスト
- Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer
Level Loss [6.171638819257848]
SDXL (Stable Diffusion XL) は、その汎用性とトップノート画像の品質のために、オープンソーステキスト・イメージ・モデル(T2I)として最高のものとなっている。
SDXLモデルの計算要求に効果的に対処することは、幅広いリーチと適用性に不可欠である。
本稿では,Segmind Stable Diffusion (SSD-1B) とSegmind-Vega (Segmind-Vega) の2つのスケールダウン変種を紹介した。
論文 参考訳(メタデータ) (2024-01-05T07:21:46Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable
Large Mixture-of-Experts Models [20.836988355711995]
Mixture-of-Experts (MoE) は、大規模モデルの時代に好意的なアーキテクチャとして登場した。
しかし、そのような利点を実現することは、しばしばGPUメモリの有効利用に繋がる。
大規模なMoEモデルに適した効率的な推論手法であるSiDAを導入する。
論文 参考訳(メタデータ) (2023-10-29T01:08:55Z) - SDXL: Improving Latent Diffusion Models for High-Resolution Image
Synthesis [8.648456572970035]
テキスト・画像合成のための遅延拡散モデルSDXLを提案する。
以前のStable Diffusionと比較すると、SDXLはUNetの3倍のバックボーンを利用している。
従来の安定拡散法と比較すると,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-07-04T23:04:57Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion [3.1092085121563526]
安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は高い計算要求を伴う。
近年の研究では、サンプリングのステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。
低コスト汎用T2Iにおけるブロックプレーニングと特徴蒸留の驚くべき可能性を明らかにする。
論文 参考訳(メタデータ) (2023-05-25T07:28:28Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。