論文の概要: DeepCache: Accelerating Diffusion Models for Free
- arxiv url: http://arxiv.org/abs/2312.00858v2
- Date: Thu, 7 Dec 2023 17:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:54:19.137329
- Title: DeepCache: Accelerating Diffusion Models for Free
- Title(参考訳): DeepCache: 無償で拡散モデルを高速化
- Authors: Xinyin Ma, Gongfan Fang, Xinchao Wang
- Abstract要約: DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
- 参考スコア(独自算出の注目度): 65.02607075556742
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Diffusion models have recently gained unprecedented attention in the field of
image synthesis due to their remarkable generative capabilities.
Notwithstanding their prowess, these models often incur substantial
computational costs, primarily attributed to the sequential denoising process
and cumbersome model size. Traditional methods for compressing diffusion models
typically involve extensive retraining, presenting cost and feasibility
challenges. In this paper, we introduce DeepCache, a novel training-free
paradigm that accelerates diffusion models from the perspective of model
architecture. DeepCache capitalizes on the inherent temporal redundancy
observed in the sequential denoising steps of diffusion models, which caches
and retrieves features across adjacent denoising stages, thereby curtailing
redundant computations. Utilizing the property of the U-Net, we reuse the
high-level features while updating the low-level features in a very cheap way.
This innovative strategy, in turn, enables a speedup factor of 2.3$\times$ for
Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1$\times$
for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments
also demonstrate DeepCache's superiority over existing pruning and distillation
methods that necessitate retraining and its compatibility with current sampling
techniques. Furthermore, we find that under the same throughput, DeepCache
effectively achieves comparable or even marginally improved results with DDIM
or PLMS. The code is available at https://github.com/horseee/DeepCache
- Abstract(参考訳): 拡散モデルは最近、その顕著な生成能力のために画像合成の分野で前例のない注目を集めている。
それらの長所にもかかわらず、これらのモデルはしばしばかなりの計算コストを発生させ、主にシーケンシャルなデノナイジングプロセスと面倒なモデルサイズに起因する。
拡散モデルを圧縮する伝統的な方法は、通常、コストと実現可能性の課題を提示する広範囲な再訓練を含む。
本稿では,モデルアーキテクチャの観点から拡散モデルを高速化する新しいトレーニングフリーパラダイムであるDeepCacheを紹介する。
DeepCacheは、拡散モデルの逐次denoisingステップで観測される固有の時間的冗長性を利用して、隣のdenoisingステージにまたがって機能をキャッシュし、検索することで、冗長な計算を削減します。
u-netの特性を利用して,低レベルの機能を極めて安価に更新しながら,高レベルの機能を再利用する。
この革新的な戦略により、安定拡散 v1.5 のスピードアップ係数 2.3$\times$ が CLIP Score で 0.05 しか減少せず、4.1$\times$ が LDM-4-G で、ImageNet では 0.22 の FID がわずかに減少している。
また,本実験では,再学習を必要とする既存のプルーニング法や蒸留法よりもDeepCacheの方が優れていることを示す。
さらに、同じスループットで、DeepCacheはDDIMやPLMSと同等あるいは極端に改善された結果が得られることが分かりました。
コードはhttps://github.com/horseee/DeepCacheで入手できる。
関連論文リスト
- Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。
TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-28T12:50:05Z) - SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。
本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。
我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文 参考訳(メタデータ) (2024-11-15T16:24:02Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Invertible Diffusion Models for Compressed Sensing [22.293412255419614]
Invertible Diffusion Models (IDM) は、効率的なエンドツーエンドの拡散に基づく圧縮センシング手法である。
当社のIDMは,PSNRにおいて既存のCSネットワークを最大2.64dB性能で上回っている。
最近の拡散型アプローチ DDNM と比較して、我々のIMM は最大 10.09dB PSNR ゲインと 14.54 倍高速な推論を実現している。
論文 参考訳(メタデータ) (2024-03-25T17:59:41Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。