論文の概要: KOALA: Self-Attention Matters in Knowledge Distillation of Latent
Diffusion Models for Memory-Efficient and Fast Image Synthesis
- arxiv url: http://arxiv.org/abs/2312.04005v1
- Date: Thu, 7 Dec 2023 02:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:13:51.611246
- Title: KOALA: Self-Attention Matters in Knowledge Distillation of Latent
Diffusion Models for Memory-Efficient and Fast Image Synthesis
- Title(参考訳): KOALA: メモリ効率・高速画像合成のための潜在拡散モデルの知識蒸留における自己注意事項
- Authors: Youngwan Lee and Kwanyong Park and Yoorhim Cho and Yong-Ju Lee and
Sung Ju Hwang
- Abstract要約: SDXLの知識を蒸留して得られたテキスト・画像合成のための効率的な潜時拡散モデルを提案する。
KOALA-1B &-700Mと呼ばれる効率的なT2Iモデルを構築し、SDXLモデルの54%と69%のモデルサイズを削減した。
- 参考スコア(独自算出の注目度): 56.242024398553355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stable diffusion is the mainstay of the text-to-image (T2I) synthesis in the
community due to its generation performance and open-source nature. Recently,
Stable Diffusion XL (SDXL), the successor of stable diffusion, has received a
lot of attention due to its significant performance improvements with a higher
resolution of 1024x1024 and a larger model. However, its increased computation
cost and model size require higher-end hardware(e.g., bigger VRAM GPU) for
end-users, incurring higher costs of operation. To address this problem, in
this work, we propose an efficient latent diffusion model for text-to-image
synthesis obtained by distilling the knowledge of SDXL. To this end, we first
perform an in-depth analysis of the denoising U-Net in SDXL, which is the main
bottleneck of the model, and then design a more efficient U-Net based on the
analysis. Secondly, we explore how to effectively distill the generation
capability of SDXL into an efficient U-Net and eventually identify four
essential factors, the core of which is that self-attention is the most
important part. With our efficient U-Net and self-attention-based knowledge
distillation strategy, we build our efficient T2I models, called KOALA-1B &
-700M, while reducing the model size up to 54% and 69% of the original SDXL
model. In particular, the KOALA-700M is more than twice as fast as SDXL while
still retaining a decent generation quality. We hope that due to its balanced
speed-performance tradeoff, our KOALA models can serve as a cost-effective
alternative to SDXL in resource-constrained environments.
- Abstract(参考訳): 安定拡散は、コミュニティにおけるテキスト・ツー・イメージ(T2I)合成の主要な基盤である。
近年,安定拡散の後継となる安定拡散XL (SDXL) は1024×1024の高分解能とより大きなモデルで大幅な性能向上を達成し,多くの注目を集めている。
しかし、その計算コストとモデルサイズの増加は、エンドユーザーのためのハイエンドハードウェア(例えば、より大きなVRAM GPU)を必要とし、高い演算コストをもたらす。
そこで本研究では,SDXLの知識を蒸留して得られたテキスト・画像合成のための効率的な潜時拡散モデルを提案する。
この目的のために,我々はまず,モデルの主なボトルネックであるsdxlにおける消音u-netの詳細な解析を行い,分析に基づいてより効率的なu-netを設計する。
次に、SDXLの生成能力を効率的なU-Netに効果的に蒸留する方法を検討し、最終的には4つの重要な要因を同定する。
効率的なU-Netと自己注意型知識蒸留戦略により,KOALA-1B &-700Mと呼ばれる効率的なT2Iモデルを構築し,SDXLモデルの54%と69%のモデルサイズを削減した。
特にKoALA-700MはSDXLの2倍以上の速さで、それでも良好な世代品質を維持している。
バランスの取れた速度性能のトレードオフにより,我々のKOALAモデルは資源制約環境におけるSDXLの代替として費用対効果が期待できる。
関連論文リスト
- Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization [59.72782742378666]
本稿では,Reward-based Noise Optimization (ReNO) を提案する。
20-50秒の計算予算の中で、ReNOによって強化されたワンステップモデルは、現在のすべてのオープンソーステキスト・トゥ・イメージ・モデルの性能を一貫して上回った。
論文 参考訳(メタデータ) (2024-06-06T17:56:40Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - Diffusion Model Compression for Image-to-Image Translation [25.46012859377184]
拡散型I2Iモデルに適した新しい圧縮手法を提案する。
I2Iモデルの画像条件が既に画像構造に関する豊富な情報を提供するという観測に基づいて、モデルサイズと遅延を低減するための驚くほど単純で効果的なアプローチを開発する。
提案手法は, モデルフットプリントの39.2%, 56.4%, 39.2%, 81.4%, 68.7%, および31.1%の遅延をそれぞれInstructPix2Pix, StableSR, ControlNetに減少させることで, 良好な出力品質を実現する。
論文 参考訳(メタデータ) (2024-01-31T02:25:52Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - CommonCanvas: An Open Diffusion Model Trained with Creative-Commons
Images [19.62509002853736]
我々はCreative-Commons-Lensed (CC) 画像のデータセットを組み立て、テキストから画像への生成モデルを訓練する。
我々は直感的な転写学習技術を用いて、CC画像と組み合わせた高品質な合成キャプションのセットを作成する。
我々は既存のSD2モデルのトレーニングに必要なLAION-2Bデータの3%しか必要としないが、同等の品質が得られるデータと計算効率のトレーニングレシピを開発した。
論文 参考訳(メタデータ) (2023-10-25T17:56:07Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion [3.1092085121563526]
安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は高い計算要求を伴う。
近年の研究では、サンプリングのステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。
低コスト汎用T2Iにおけるブロックプレーニングと特徴蒸留の驚くべき可能性を明らかにする。
論文 参考訳(メタデータ) (2023-05-25T07:28:28Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。