論文の概要: QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation
- arxiv url: http://arxiv.org/abs/2503.06545v1
- Date: Sun, 09 Mar 2025 10:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:50.732022
- Title: QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation
- Title(参考訳): QuantCache: 階層的遅延と層キャッシングによるビデオ生成のための適応的重要度誘導量子化
- Authors: Junyi Wu, Zhiteng Li, Zheng Hui, Yulun Zhang, Linghe Kong, Xiaokang Yang,
- Abstract要約: Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
- 参考スコア(独自算出の注目度): 84.91431271257437
- License:
- Abstract: Recently, Diffusion Transformers (DiTs) have emerged as a dominant architecture in video generation, surpassing U-Net-based models in terms of performance. However, the enhanced capabilities of DiTs come with significant drawbacks, including increased computational and memory costs, which hinder their deployment on resource-constrained devices. Current acceleration techniques, such as quantization and cache mechanism, offer limited speedup and are often applied in isolation, failing to fully address the complexities of DiT architectures. In this paper, we propose QuantCache, a novel training-free inference acceleration framework that jointly optimizes hierarchical latent caching, adaptive importance-guided quantization, and structural redundancy-aware pruning. QuantCache achieves an end-to-end latency speedup of 6.72$\times$ on Open-Sora with minimal loss in generation quality. Extensive experiments across multiple video generation benchmarks demonstrate the effectiveness of our method, setting a new standard for efficient DiT inference. The code and models will be available at https://github.com/JunyiWuCode/QuantCache.
- Abstract(参考訳): 近年,Diffusion Transformers (DiT) がビデオ生成において主流のアーキテクチャとして登場し,性能面ではU-Netモデルを上回っている。
しかし、DiTの強化機能には、計算コストやメモリコストの増大など、大きな欠点があり、リソース制約のあるデバイスへのデプロイメントを妨げている。
量子化やキャッシュ機構といった現在の加速技術は、制限されたスピードアップを提供し、しばしば分離して適用され、DiTアーキテクチャの複雑さに完全に対処することができない。
本稿では,階層的遅延キャッシング,適応的重要誘導量子化,構造的冗長性を考慮したプルーニングを共同で最適化する,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
QuantCacheは、生成品質が最小限に低下したOpen-Sora上で、エンドツーエンドのレイテンシのスピードアップを6.72$\times$で達成している。
複数のビデオ生成ベンチマークにまたがる大規模な実験により,提案手法の有効性が実証され,効率的なDiT推論のための新しい標準が設定された。
コードとモデルはhttps://github.com/JunyiWuCode/QuantCacheで入手できる。
関連論文リスト
- Accelerating Vision Diffusion Transformers with Skip Branches [47.07564477125228]
Diffusion Transformers (DiT) は、新しい画像およびビデオ生成モデルアーキテクチャである。
DiTの実践的な展開は、シーケンシャルな denoising プロセスにおける計算複雑性と冗長性によって制約される。
我々は,Skip-DiTを導入し,Skip-DiTをスキップブランチでSkip-DiTに変換し,特徴のスムーズさを高める。
また、Skip-Cacheを導入します。これは、スキップブランチを使用して、推論時にタイムステップ毎にDiT機能をキャッシュします。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文 参考訳(メタデータ) (2024-11-25T13:33:41Z) - SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers [4.7170474122879575]
Diffusion Transformer (DiT)は、画像、ビデオ、音声合成など、様々なタスクのための強力な生成モデルとして登場した。
本稿では,DiTアーキテクチャのモデルに依存しない推論高速化手法であるSmoothCacheを紹介する。
我々の実験は、SmoothCacheが71%のスピードアップを実現し、多様なモダリティをまたいだ生成品質の維持や改善を実現していることを示している。
論文 参考訳(メタデータ) (2024-11-15T16:24:02Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。