論文の概要: Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer
Level Loss
- arxiv url: http://arxiv.org/abs/2401.02677v1
- Date: Fri, 5 Jan 2024 07:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:46:15.383586
- Title: Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer
Level Loss
- Title(参考訳): 層レベル損失を利用した安定拡散xlのプログレッシブ知識蒸留
- Authors: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul and
Patrick Von Platen
- Abstract要約: SDXL (Stable Diffusion XL) は、その汎用性とトップノート画像の品質のために、オープンソーステキスト・イメージ・モデル(T2I)として最高のものとなっている。
SDXLモデルの計算要求に効果的に対処することは、幅広いリーチと適用性に不可欠である。
本稿では,Segmind Stable Diffusion (SSD-1B) とSegmind-Vega (Segmind-Vega) の2つのスケールダウン変種を紹介した。
- 参考スコア(独自算出の注目度): 6.171638819257848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stable Diffusion XL (SDXL) has become the best open source text-to-image
model (T2I) for its versatility and top-notch image quality. Efficiently
addressing the computational demands of SDXL models is crucial for wider reach
and applicability. In this work, we introduce two scaled-down variants, Segmind
Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter
UNets, respectively, achieved through progressive removal using layer-level
losses focusing on reducing the model size while preserving generative quality.
We release these models weights at https://hf.co/Segmind. Our methodology
involves the elimination of residual networks and transformer blocks from the
U-Net structure of SDXL, resulting in significant reductions in parameters, and
latency. Our compact models effectively emulate the original SDXL by
capitalizing on transferred knowledge, achieving competitive results against
larger multi-billion parameter SDXL. Our work underscores the efficacy of
knowledge distillation coupled with layer-level losses in reducing model size
while preserving the high-quality generative capabilities of SDXL, thus
facilitating more accessible deployment in resource-constrained environments.
- Abstract(参考訳): SDXL (Stable Diffusion XL) は、その汎用性とトップノート画像の品質のために、オープンソーステキスト・イメージ・モデル(T2I)として最高のものとなっている。
SDXLモデルの計算要求に効果的に対処することは、幅広いリーチと適用性に不可欠である。
本研究では,segmind stable diffusion (ssd-1b) と segmind-vega (ssd-1b) の2つのスケールダウン変種を導入し,それぞれ1.3b パラメータ unets と 0.74b パラメータを持つ。
これらのモデルの重みはhttps://hf.co/segmind.com/でリリースします。
本手法では,sdxlのu-net構造から残差ネットワークとトランスフォーマーブロックを除去し,パラメータとレイテンシを大幅に削減する。
我々のコンパクトモデルは,移動知識を活かし,より大きなマルチビリオンパラメータSDXLと競合する結果を得ることにより,元のSDXLを効果的にエミュレートする。
本研究は,SDXLの高品質な生成能力を保ちながら,モデルサイズの削減にともなう知識蒸留の有効性を実証し,資源制約環境への展開を容易にすることを目的とする。
関連論文リスト
- Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
モデル構造では、二項化に最適化されたUNetアーキテクチャを設計する。
我々は,一貫した次元を維持するために,一貫した画素ダウンサンプル (CP-Down) と一貫したピクセルアップサンプル (CP-Up) を提案する。
BI-DiffSRが既存のバイナライゼーション法より優れていることを示す総合実験を行った。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models [8.679634923220174]
圧縮拡散モデル(LAPTOP-Diff)のための層プレーニングと正規化蒸留を提案する。
提案したLAPTOP-Diffを用いて,SDXLとSDM-v1.5のU-Netを圧縮し,PickScoreを50%,PickScoreの最小4.0%,PickScoreの最小8.2%の低下を実現した。
論文 参考訳(メタデータ) (2024-04-17T06:32:42Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - SDXL: Improving Latent Diffusion Models for High-Resolution Image
Synthesis [8.648456572970035]
テキスト・画像合成のための遅延拡散モデルSDXLを提案する。
以前のStable Diffusionと比較すると、SDXLはUNetの3倍のバックボーンを利用している。
従来の安定拡散法と比較すると,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-07-04T23:04:57Z) - BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion [3.1092085121563526]
安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は高い計算要求を伴う。
近年の研究では、サンプリングのステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。
低コスト汎用T2Iにおけるブロックプレーニングと特徴蒸留の驚くべき可能性を明らかにする。
論文 参考訳(メタデータ) (2023-05-25T07:28:28Z) - Towards Lightweight Super-Resolution with Dual Regression Learning [58.98801753555746]
深層ニューラルネットワークは、画像超解像(SR)タスクにおいて顕著な性能を示した。
SR問題は通常不適切な問題であり、既存の手法にはいくつかの制限がある。
本稿では、SRマッピングの可能な空間を削減するために、二重回帰学習方式を提案する。
論文 参考訳(メタデータ) (2022-07-16T12:46:10Z) - Learning Robust and Lightweight Model through Separable Structured
Transformations [13.208781763887947]
本稿では、畳み込みニューラルネットワークのパラメータを低減するために、完全連結層を分離可能な構造変換を提案する。
ネットワークパラメータの90%削減に成功し、ロバストな精度損失は1.5%未満である。
我々は、ImageNet、SVHN、CIFAR-100、Vision Transformerなどのデータセットに対する提案手法を評価する。
論文 参考訳(メタデータ) (2021-12-27T07:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。