論文の概要: MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2508.12691v1
- Date: Mon, 18 Aug 2025 07:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.067529
- Title: MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration
- Title(参考訳): MixCache: ビデオ拡散変換器高速化のためのmixture-of-Cache
- Authors: Yuanxin Wei, Lansong Diao, Bujiao Chen, Shenggan Cheng, Zhengping Qian, Wenyuan Yu, Nong Xiao, Wei Lin, Jiangsu Du,
- Abstract要約: キャッシングは、DiTモデルで広く採用されている最適化手法である。
効率的なビデオDiT推論のためのトレーニング不要なキャッシュベースのフレームワークであるMixCacheを提案する。
- 参考スコア(独自算出の注目度): 15.22288174114487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the Transformer architecture and the diffusion process, video DiT models have emerged as a dominant approach for high-quality video generation. However, their multi-step iterative denoising process incurs high computational cost and inference latency. Caching, a widely adopted optimization method in DiT models, leverages the redundancy in the diffusion process to skip computations in different granularities (e.g., step, cfg, block). Nevertheless, existing caching methods are limited to single-granularity strategies, struggling to balance generation quality and inference speed in a flexible manner. In this work, we propose MixCache, a training-free caching-based framework for efficient video DiT inference. It first distinguishes the interference and boundary between different caching strategies, and then introduces a context-aware cache triggering strategy to determine when caching should be enabled, along with an adaptive hybrid cache decision strategy for dynamically selecting the optimal caching granularity. Extensive experiments on diverse models demonstrate that, MixCache can significantly accelerate video generation (e.g., 1.94$\times$ speedup on Wan 14B, 1.97$\times$ speedup on HunyuanVideo) while delivering both superior generation quality and inference efficiency compared to baseline methods.
- Abstract(参考訳): トランスフォーマーアーキテクチャと拡散プロセスを活用することで、ビデオDiTモデルは高品質のビデオ生成において支配的なアプローチとして現れてきた。
しかし、その多段階反復的復調処理は、高い計算コストと推論遅延を引き起こす。
DiTモデルで広く採用された最適化手法であるキャッシングは、拡散過程の冗長性を利用して、異なる粒度の計算(例えば、ステップ、cfg、ブロック)をスキップする。
それでも、既存のキャッシュ手法は単一粒度戦略に限られており、フレキシブルな方法で生成品質と推論速度のバランスをとるのに苦労している。
本研究では,効率的なビデオDiT推論のためのトレーニング不要キャッシングベースのフレームワークであるMixCacheを提案する。
まず、異なるキャッシュ戦略間の干渉と境界を識別し、次に、最適なキャッシュ粒度を動的に選択する適応型ハイブリッドキャッシュ決定戦略とともに、キャッシュがいつ有効になるかを決定する、コンテキスト対応のキャッシュトリガ戦略を導入する。
MixCacheはビデオ生成を著しく高速化できる(Wan 14Bでは1.94$\times$スピードアップ、HunyuanVideoでは1.97$\times$スピードアップ)。
関連論文リスト
- TaoCache: Structure-Maintained Video Generation Acceleration [4.594224594572109]
ビデオ拡散モデルのためのトレーニング不要のプラグイン・アンド・プレイキャッシュ戦略であるTaoCacheを提案する。
モデルのノイズ出力を予測するために固定点視点を採用しており、特に遅延雑音発生の段階で有効である。
論文 参考訳(メタデータ) (2025-08-12T14:40:36Z) - Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。
我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。
提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文 参考訳(メタデータ) (2025-07-03T17:59:54Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。