論文の概要: Token Pruning for Caching Better: 9 Times Acceleration on Stable Diffusion for Free
- arxiv url: http://arxiv.org/abs/2501.00375v1
- Date: Tue, 31 Dec 2024 09:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:54.879362
- Title: Token Pruning for Caching Better: 9 Times Acceleration on Stable Diffusion for Free
- Title(参考訳): ケーチ用トケンプルーニング:安定拡散の9倍の加速
- Authors: Evelyn Zhang, Bang Xiao, Jiayi Tang, Qianli Ma, Chang Zou, Xuefei Ning, Xuming Hu, Linfeng Zhang,
- Abstract要約: 本稿では,機能キャッシングの限界に対処する動的トークンプルーニング(DaTo)アプローチを提案する。
DaToは、フィーチャーキャッシングとトークンプルーニングをトレーニング不要な方法で組み合わせて、時間的およびトークン的な情報の再利用を実現する。
- 参考スコア(独自算出の注目度): 36.86246063181059
- License:
- Abstract: Stable Diffusion has achieved remarkable success in the field of text-to-image generation, with its powerful generative capabilities and diverse generation results making a lasting impact. However, its iterative denoising introduces high computational costs and slows generation speed, limiting broader adoption. The community has made numerous efforts to reduce this computational burden, with methods like feature caching attracting attention due to their effectiveness and simplicity. Nonetheless, simply reusing features computed at previous timesteps causes the features across adjacent timesteps to become similar, reducing the dynamics of features over time and ultimately compromising the quality of generated images. In this paper, we introduce a dynamics-aware token pruning (DaTo) approach that addresses the limitations of feature caching. DaTo selectively prunes tokens with lower dynamics, allowing only high-dynamic tokens to participate in self-attention layers, thereby extending feature dynamics across timesteps. DaTo combines feature caching with token pruning in a training-free manner, achieving both temporal and token-wise information reuse. Applied to Stable Diffusion on the ImageNet, our approach delivered a 9$\times$ speedup while reducing FID by 0.33, indicating enhanced image quality. On the COCO-30k, we observed a 7$\times$ acceleration coupled with a notable FID reduction of 2.17.
- Abstract(参考訳): 安定拡散はテキスト・画像生成の分野で著しく成功し、その強力な生成能力と多様な生成結果が持続的な影響を与えている。
しかし、反復的なデノベーションは高い計算コストをもたらし、生成速度を遅くし、より広範な採用を制限する。
コミュニティは、この計算負担を減らすために多くの努力を払っており、特徴キャッシングのような手法は、その有効性と単純さから注目を集めている。
それにもかかわらず、以前のタイムステップで計算された機能を単に再利用するだけで、隣のタイムステップにまたがる機能が類似し、時間の経過とともに機能のダイナミクスが減少し、最終的に生成された画像の品質が向上する。
本稿では,機能キャッシングの限界に対処する動的トークン・プルーニング(DaTo)手法を提案する。
DaToは、低いダイナミクスでトークンを選択的にプルークし、ハイダイナミックトークンだけが自己アテンション層に参加できるようにし、タイムステップ間で機能ダイナミクスを拡張する。
DaToは、フィーチャーキャッシングとトークンプルーニングをトレーニング不要な方法で組み合わせて、時間的およびトークン的な情報の再利用を実現する。
ImageNetのStable Diffusionに応用すると、FIDを0.33に下げながら9$\times$のスピードアップを実現し、画像品質の向上を示しました。
COCO-30kでは7$\times$の加速と2.17の顕著なFID低下が観察された。
関連論文リスト
- Accelerating Vision Diffusion Transformers with Skip Branches [47.07564477125228]
Diffusion Transformers (DiT) は、新しい画像およびビデオ生成モデルアーキテクチャである。
DiTの実践的な展開は、シーケンシャルな denoising プロセスにおける計算複雑性と冗長性によって制約される。
我々は,Skip-DiTを導入し,Skip-DiTをスキップブランチでSkip-DiTに変換し,特徴のスムーズさを高める。
また、Skip-Cacheを導入します。これは、スキップブランチを使用して、推論時にタイムステップ毎にDiT機能をキャッシュします。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Accelerating Diffusion Transformers with Token-wise Feature Caching [19.140800616594294]
拡散変換器は、膨大な計算コストを犠牲にして、画像合成とビデオ合成の両方において有意な効果を示した。
トークンワイズ機能キャッシングを導入し、キャッシングに最も適したトークンを適応的に選択できるようにします。
PixArt-$alpha$、OpenSora、DiTの実験では、トレーニングの必要なく、画像生成とビデオ生成の両方の有効性を実証しています。
論文 参考訳(メタデータ) (2024-10-05T03:47:06Z) - Token Caching for Diffusion Transformer Acceleration [30.437462937127773]
TokenCacheは拡散変圧器の訓練後高速化手法である。
推論ステップ間でトークン間の冗長な計算を削減します。
TokenCacheは,拡散変圧器における生成品質と推論速度のトレードオフを効果的に実現していることを示す。
論文 参考訳(メタデータ) (2024-09-27T08:05:34Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Approximate Caching for Efficiently Serving Diffusion Models [13.426080562080102]
本稿では,プロンプトに基づく画像生成において,そのような反復的なデノゲーションステップを削減できる近似キャッシング手法を提案する。
本稿では,キャッシュ管理を新たに導入したNirvanaについて概説する。
論文 参考訳(メタデータ) (2023-12-07T16:55:04Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。