論文の概要: SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2411.10510v1
- Date: Fri, 15 Nov 2024 16:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:32:30.069339
- Title: SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers
- Title(参考訳): SmoothCache: 拡散変換器のユニバーサル推論高速化技術
- Authors: Joseph Liu, Joshua Geddes, Ziyu Guo, Haomiao Jiang, Mahesh Kumar Nandwana,
- Abstract要約: Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。
本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。
我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
- 参考スコア(独自算出の注目度): 4.7170474122879575
- License:
- Abstract: Diffusion Transformers (DiT) have emerged as powerful generative models for various tasks, including image, video, and speech synthesis. However, their inference process remains computationally expensive due to the repeated evaluation of resource-intensive attention and feed-forward modules. To address this, we introduce SmoothCache, a model-agnostic inference acceleration technique for DiT architectures. SmoothCache leverages the observed high similarity between layer outputs across adjacent diffusion timesteps. By analyzing layer-wise representation errors from a small calibration set, SmoothCache adaptively caches and reuses key features during inference. Our experiments demonstrate that SmoothCache achieves 8% to 71% speed up while maintaining or even improving generation quality across diverse modalities. We showcase its effectiveness on DiT-XL for image generation, Open-Sora for text-to-video, and Stable Audio Open for text-to-audio, highlighting its potential to enable real-time applications and broaden the accessibility of powerful DiT models.
- Abstract(参考訳): Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。
しかし、資源集約的な注意とフィードフォワードモジュールの繰り返し評価により、それらの推論プロセスは依然として計算コストがかかる。
そこで本研究では,DiTアーキテクチャのモデルに依存しない推論高速化技術であるSmoothCacheを紹介する。
SmoothCacheは、隣り合う拡散時間ステップで観測された層出力間の高い類似性を利用する。
SmoothCacheは、小さなキャリブレーションセットから層単位での表現エラーを分析することで、推論中に重要な機能を適応的にキャッシュし再利用する。
我々の実験は、SmoothCacheが8%から71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
画像生成のためのDiT-XL、テキスト・トゥ・ビデオのためのOpen-Sora、テキスト・トゥ・オーディオのためのStable Audio Open、リアルタイムアプリケーションの実現と強力なDiTモデルのアクセシビリティ向上の可能性を強調した。
関連論文リスト
- FlexCache: Flexible Approximate Cache System for Video Diffusion [1.6211899643913996]
2つの主要な設計における課題に対処するフレキシブルな近似キャッシュシステムであるFlexCacheを紹介します。
FlexCacheは、最先端の拡散近似キャッシュシステムと比較して、スループットが1.26倍、コストが25%低いことが分かりました。
論文 参考訳(メタデータ) (2024-12-18T00:35:16Z) - Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。
TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-28T12:50:05Z) - Accelerating Vision Diffusion Transformers with Skip Branches [47.07564477125228]
Diffusion Transformers (DiT) は、新しい画像およびビデオ生成モデルアーキテクチャである。
DiTの実践的な展開は、シーケンシャルな denoising プロセスにおける計算複雑性と冗長性によって制約される。
我々は,Skip-DiTを導入し,Skip-DiTをスキップブランチでSkip-DiTに変換し,特徴のスムーズさを高める。
また、Skip-Cacheを導入します。これは、スキップブランチを使用して、推論時にタイムステップ毎にDiT機能をキャッシュします。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。