論文の概要: BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching
- arxiv url: http://arxiv.org/abs/2509.13789v2
- Date: Thu, 18 Sep 2025 04:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 13:12:58.952362
- Title: BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching
- Title(参考訳): BWCache:ブロックワイズキャッシングによるビデオ拡散変換器の高速化
- Authors: Hanshuai Cui, Zhiqing Tang, Zhifei Xu, Zhi Yao, Wenyi Zeng, Weijia Jia,
- Abstract要約: Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
- 参考スコア(独自算出の注目度): 6.354675628412448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Diffusion Transformers (DiTs) have established them as the state-of-the-art method for video generation. However, their inherently sequential denoising process results in inevitable latency, limiting real-world applicability. Existing acceleration methods either compromise visual quality due to architectural modifications or fail to reuse intermediate features at proper granularity. Our analysis reveals that DiT blocks are the primary contributors to inference latency. Across diffusion timesteps, the feature variations of DiT blocks exhibit a U-shaped pattern with high similarity during intermediate timesteps, which suggests substantial computational redundancy. In this paper, we propose Block-Wise Caching (BWCache), a training-free method to accelerate DiT-based video generation. BWCache dynamically caches and reuses features from DiT blocks across diffusion timesteps. Furthermore, we introduce a similarity indicator that triggers feature reuse only when the differences between block features at adjacent timesteps fall below a threshold, thereby minimizing redundant computations while maintaining visual fidelity. Extensive experiments on several video diffusion models demonstrate that BWCache achieves up to 2.24$\times$ speedup with comparable visual quality.
- Abstract(参考訳): 拡散変換器(DiT)の最近の進歩は,映像生成の最先端技術として確立されている。
しかし、その本質的にシーケンシャルな復調プロセスは、必然的なレイテンシをもたらし、現実の応用性を制限する。
既存のアクセラレーション手法は、アーキテクチャ上の変更によって視覚的品質を損なうか、適切な粒度で中間機能を再利用できないかのどちらかである。
我々の分析では、DiTブロックが推論レイテンシの主要なコントリビュータであることが判明した。
拡散時間ステップ全体にわたって、DiTブロックの特徴変化は、中間時間ステップの間に高い類似性を持つU字型パターンを示し、かなりの計算冗長性を示している。
本稿では,DiTベースのビデオ生成を高速化するトレーニング不要なBlock-Wise Caching(BWCache)を提案する。
BWCacheは拡散タイムステップを越えて動的にキャッシュし、DiTブロックから機能を再利用する。
さらに,隣接時間におけるブロック特徴の違いがしきい値を下回る場合にのみ機能再利用をトリガーする類似度指標を導入し,視覚的忠実度を維持しながら冗長な計算を最小化する。
いくつかのビデオ拡散モデルの大規模な実験により、BWCacheは2.24$\times$ speedupと同等の視覚的品質を実現している。
関連論文リスト
- MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration [15.22288174114487]
キャッシングは、DiTモデルで広く採用されている最適化手法である。
効率的なビデオDiT推論のためのトレーニング不要なキャッシュベースのフレームワークであるMixCacheを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:49:33Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。
本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。
我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文 参考訳(メタデータ) (2024-11-15T16:24:02Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。