論文の概要: On Architectural Compression of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.15798v1
- Date: Thu, 25 May 2023 07:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:46:39.223360
- Title: On Architectural Compression of Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのアーキテクチャ圧縮について
- Authors: Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi
- Abstract要約: 本研究は,ブロック除去知識蒸留SDM(BK-SDM)の導入による汎用T2I合成のための古典的アーキテクチャ圧縮のパワーを強調した。
1つのA100 GPU上で0.22MLAIONペア(フルトレーニングペアの0.1%以下)で蒸留ベースの事前トレーニングを行う。
我々のコンパクトモデルでは、転送された知識の恩恵を受け、ゼロショットMS-COCOベンチマークでより大きなマルチビリオンパラメータモデルと競合する結果を得ることで、元のSDMを模倣することができる。
- 参考スコア(独自算出の注目度): 4.568911586155097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exceptional text-to-image (T2I) generation results of Stable Diffusion models
(SDMs) come with substantial computational demands. To resolve this issue,
recent research on efficient SDMs has prioritized reducing the number of
sampling steps and utilizing network quantization. Orthogonal to these
directions, this study highlights the power of classical architectural
compression for general-purpose T2I synthesis by introducing block-removed
knowledge-distilled SDMs (BK-SDMs). We eliminate several residual and attention
blocks from the U-Net of SDMs, obtaining over a 30% reduction in the number of
parameters, MACs per sampling step, and latency. We conduct distillation-based
pretraining with only 0.22M LAION pairs (fewer than 0.1% of the full training
pairs) on a single A100 GPU. Despite being trained with limited resources, our
compact models can imitate the original SDM by benefiting from transferred
knowledge and achieve competitive results against larger multi-billion
parameter models on the zero-shot MS-COCO benchmark. Moreover, we demonstrate
the applicability of our lightweight pretrained models in personalized
generation with DreamBooth finetuning.
- Abstract(参考訳): 安定拡散モデル(SDM)の例外テキスト・トゥ・イメージ(T2I)生成結果には、かなりの計算要求がある。
この問題を解決するため、近年の効率的なSDMの研究はサンプリングステップの削減とネットワーク量子化の利用を優先している。
本研究は,ブロック除去された知識蒸留SDM(BK-SDM)を導入することにより,汎用T2I合成のための古典的アーキテクチャ圧縮の力を強調する。
我々は,SDMのU-Netから残差や注意ブロックを除去し,パラメータ数,サンプリングステップ毎のMAC数,レイテンシを30%以上削減する。
1つのA100 GPU上で0.22MLAIONペア(フルトレーニングペアの0.1%以下)で蒸留ベースの事前トレーニングを行う。
限られた資源で訓練されているにもかかわらず、我々のコンパクトモデルは、転送された知識の恩恵を受け、ゼロショットMS-COCOベンチマーク上のより大きなマルチビリオンパラメータモデルに対して競合する結果を得ることにより、元のSDMを模倣することができる。
さらに,dreambooth finetuningを用いたパーソナライズ生成における軽量事前学習モデルの適用性を示す。
関連論文リスト
- Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - Learning Robust and Lightweight Model through Separable Structured
Transformations [13.208781763887947]
本稿では、畳み込みニューラルネットワークのパラメータを低減するために、完全連結層を分離可能な構造変換を提案する。
ネットワークパラメータの90%削減に成功し、ロバストな精度損失は1.5%未満である。
我々は、ImageNet、SVHN、CIFAR-100、Vision Transformerなどのデータセットに対する提案手法を評価する。
論文 参考訳(メタデータ) (2021-12-27T07:25:26Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - 4-bit Quantization of LSTM-based Speech Recognition Models [40.614677908909705]
LSTMに基づく大規模アーキテクチャの2つのファミリにおける重みとアクティベーションの積極的低精度表現の影響について検討した。
量子化器と初期化器の適切な選択により、最小精度の損失が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T00:59:52Z) - Ensembles of Spiking Neural Networks [0.3007949058551534]
本稿では,最先端の結果を生み出すスパイクニューラルネットワークのアンサンブルを構築する方法について述べる。
MNIST, NMNIST, DVS Gestureデータセットの分類精度は98.71%, 100.0%, 99.09%である。
我々は、スパイキングニューラルネットワークをGLM予測器として形式化し、ターゲットドメインに適した表現を識別する。
論文 参考訳(メタデータ) (2020-10-15T17:45:18Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。