論文の概要: SpeCa: Accelerating Diffusion Transformers with Speculative Feature Caching
- arxiv url: http://arxiv.org/abs/2509.11628v1
- Date: Mon, 15 Sep 2025 06:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.175436
- Title: SpeCa: Accelerating Diffusion Transformers with Speculative Feature Caching
- Title(参考訳): SpeCa: 投機的特徴キャッシングによる拡散変換器の高速化
- Authors: Jiacheng Liu, Chang Zou, Yuanhuiyi Lyu, Fei Ren, Shaobo Wang, Kaixin Li, Linfeng Zhang,
- Abstract要約: 拡散モデルは高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。
本稿では,両制約を効果的に対処する新しい「予測検証」アクセラレーションフレームワークであるSpeCaを提案する。
提案手法では,予測信頼性を効率よく評価するパラメータフリー検証機構を実装し,各予測に対するリアルタイム決定の受け入れや拒否を可能にする。
- 参考スコア(独自算出の注目度): 17.724549528455317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have revolutionized high-fidelity image and video synthesis, yet their computational demands remain prohibitive for real-time applications. These models face two fundamental challenges: strict temporal dependencies preventing parallelization, and computationally intensive forward passes required at each denoising step. Drawing inspiration from speculative decoding in large language models, we present SpeCa, a novel 'Forecast-then-verify' acceleration framework that effectively addresses both limitations. SpeCa's core innovation lies in introducing Speculative Sampling to diffusion models, predicting intermediate features for subsequent timesteps based on fully computed reference timesteps. Our approach implements a parameter-free verification mechanism that efficiently evaluates prediction reliability, enabling real-time decisions to accept or reject each prediction while incurring negligible computational overhead. Furthermore, SpeCa introduces sample-adaptive computation allocation that dynamically modulates resources based on generation complexity, allocating reduced computation for simpler samples while preserving intensive processing for complex instances. Experiments demonstrate 6.34x acceleration on FLUX with minimal quality degradation (5.5% drop), 7.3x speedup on DiT while preserving generation fidelity, and 79.84% VBench score at 6.1x acceleration for HunyuanVideo. The verification mechanism incurs minimal overhead (1.67%-3.5% of full inference costs), establishing a new paradigm for efficient diffusion model inference while maintaining generation quality even at aggressive acceleration ratios. Our codes have been released in Github: \textbf{https://github.com/Shenyi-Z/Cache4Diffusion}
- Abstract(参考訳): 拡散モデルは高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。
これらのモデルは、厳密な時間的依存による並列化の防止と、各分極ステップで必要とされる計算集約的な前方通過の2つの根本的な課題に直面している。
大規模言語モデルにおける投機的復号化からインスピレーションを得たSpeCaは、両方の制限を効果的に対処する新しい 'Forecast-then-verify' アクセラレーションフレームワークである。
SpeCaの中核的な革新は、拡散モデルに投機サンプリングを導入し、完全に計算された参照時間ステップに基づいてその後の時間ステップの中間的特徴を予測することである。
提案手法では,予測の信頼性を効率よく評価するパラメータフリー検証機構を実装し,計算オーバーヘッドを発生させることなく,予測の受け入れや拒否をリアルタイムに行えるようにしている。
さらに、SpeCaは、複雑なインスタンスの集中処理を保ちながら、単純なサンプルの少ない計算を割り当て、生成複雑性に基づいてリソースを動的に調整する、サンプル適応型の計算割り当てを導入している。
FLUXの6.34倍の加速(5.5%の低下)、DiTの7.3倍のスピードアップ、およびHunyuanVideoの79.84%のVBenchスコアが示されている。
検証機構は最小限のオーバーヘッド(全推論コストの1.67%-3.5%)を発生させ、アグレッシブ加速比でも生成品質を維持しながら効率的な拡散モデル推論のための新しいパラダイムを確立する。
私たちのコードはGithubで公開されている。
関連論文リスト
- Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - HiCache: Training-free Acceleration of Diffusion Models via Hermite Polynomial-based Feature Caching [19.107716099809707]
HiCacheはトレーニング不要のアクセラレーションフレームワークで、機能予測を改善する。
本稿では,予測精度を保ちながら数値安定性を確保する二重スケーリング機構を提案する。
論文 参考訳(メタデータ) (2025-08-23T10:35:16Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping [30.85025293160079]
生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。
ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。
本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-10T15:35:29Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - CAT Pruning: Cluster-Aware Token Pruning For Text-to-Image Diffusion Models [5.406829638216823]
拡散モデルは、特にテキスト対画像合成の領域において、生成タスクに革命をもたらした。
しかし、反復的なデノゲーションプロセスは、かなりの計算資源を必要とする。
本稿では、トークンレベルのプルーニングとキャッシュ技術を統合して、この計算課題に対処する新しい加速戦略を提案する。
論文 参考訳(メタデータ) (2025-02-01T13:46:02Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。