論文の概要: A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization
- arxiv url: http://arxiv.org/abs/2312.15516v2
- Date: Wed, 27 Dec 2023 03:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:59:19.665522
- Title: A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization
- Title(参考訳): A-SDM:冗長除去と性能最適化による安定拡散の加速
- Authors: Jinchao Zhu, Yuxuan Wang, Xiaobing Tu, Siyuan Pan, Pengfei Wan, Gao
Huang
- Abstract要約: 本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
- 参考スコア(独自算出の注目度): 54.113083217869516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Stable Diffusion Model (SDM) is a popular and efficient text-to-image
(t2i) generation and image-to-image (i2i) generation model. Although there have
been some attempts to reduce sampling steps, model distillation, and network
quantization, these previous methods generally retain the original network
architecture. Billion scale parameters and high computing requirements make the
research of model architecture adjustment scarce. In this work, we first
explore the computational redundancy part of the network, and then prune the
redundancy blocks of the model and maintain the network performance through a
progressive incubation strategy. Secondly, in order to maintaining the model
performance, we add cross-layer multi-expert conditional convolution
(CLME-Condconv) to the block pruning part to inherit the original convolution
parameters. Thirdly, we propose a global-regional interactive (GRI) attention
to speed up the computationally intensive attention part. Finally, we use
semantic-aware supervision (SAS) to align the outputs of the teacher model and
student model at the semantic level. Experiments show that this method can
effectively train a lightweight model close to the performance of the original
SD model, and effectively improve the model speed under limited resources.
Experiments show that the proposed method can effectively train a light-weight
model close to the performance of the original SD model, and effectively
improve the model speed under limited resources. After acceleration, the UNet
part of the model is 22% faster and the overall speed is 19% faster.
- Abstract(参考訳): 安定拡散モデル(stable Diffusion Model, SDM)は、t2iの生成とi2iの生成モデルである。
サンプリングステップ、モデル蒸留、ネットワーク量子化を減らそうとする試みはいくつかあったが、これらの手法は一般に元のネットワークアーキテクチャを保っている。
数十億のスケールパラメータと高い計算要求は、モデルアーキテクチャ調整の研究を弱める。
そこで本研究では,まずネットワークの計算冗長性の部分を探索し,次にモデルの冗長性ブロックを掘り下げ,漸進的なインキュベーション戦略を通じてネットワーク性能を維持する。
第2に、モデル性能を維持するために、ブロックプルーニング部にクロス層マルチエキスパート条件畳み込み(CLME-Condconv)を加え、元の畳み込みパラメータを継承する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
最後に,教師モデルと学生モデルの出力をセマンティックレベルで調整するために,意味認識監視(SAS)を用いる。
実験により、本手法は、元のsdモデルの性能に近い軽量モデルを効果的に訓練でき、限られた資源でモデル速度を効果的に向上できることを示した。
実験により,本手法は,sdモデルの性能に近い軽量モデルを効果的に訓練し,限られた資源でモデル速度を効果的に向上できることを示した。
加速後、モデルのunet部分は22%高速であり、全体の速度は19%高速である。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - RedTest: Towards Measuring Redundancy in Deep Neural Networks Effectively [10.812755570974929]
深層学習モデル構造における冗長度を測定するために,モデル構造冗長スコア(MSRS)を用いる。
MSRSは、多くの最先端モデルにおける冗長性の問題を明らかにし、評価するのに効果的である。
最適なモデル構造を探索するための新しい冗長性認識アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-15T14:36:07Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - A Two-step-training Deep Learning Framework for Real-time Computational
Imaging without Physics Priors [0.0]
本稿では,物理を前提としないリアルタイムな計算画像作成のための2段階学習用DL(TST-DL)フレームワークを提案する。
まず、モデルを直接学習するために、単一の完全接続層(FCL)をトレーニングする。
そして、このFCLを未訓練のU-Netアーキテクチャで固定固定し、第2ステップのトレーニングを行い、出力画像の忠実性を改善する。
論文 参考訳(メタデータ) (2020-01-10T15:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。