論文の概要: ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2512.17298v1
- Date: Fri, 19 Dec 2025 07:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.28446
- Title: ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration
- Title(参考訳): ProCache: 拡散変換器高速化のための選択的計算による制約対応機能キャッシング
- Authors: Fanpu Cao, Yaofo Chen, Zeng You, Wei Luo, Cen Chen,
- Abstract要約: Diffusion Transformer (DiTs) は、生成モデリングにおいて最先端のパフォーマンスを達成したが、その高い計算コストは、リアルタイムデプロイメントを妨げている。
既存の手法では,(1) 均一なキャッシング間隔がDiTの非一様時間ダイナミクスと一致しないこと,(2) 過大なキャッシング間隔によるナイーブな機能再利用が重大なエラーの蓄積につながること,の2つの重要な制限が課されている。
ProCacheはトレーニング不要な動的機能キャッシュフレームワークで、2つのコアコンポーネントを介してこれらの問題に対処する。
- 参考スコア(独自算出の注目度): 14.306565517230775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have achieved state-of-the-art performance in generative modeling, yet their high computational cost hinders real-time deployment. While feature caching offers a promising training-free acceleration solution by exploiting temporal redundancy, existing methods suffer from two key limitations: (1) uniform caching intervals fail to align with the non-uniform temporal dynamics of DiT, and (2) naive feature reuse with excessively large caching intervals can lead to severe error accumulation. In this work, we analyze the evolution of DiT features during denoising and reveal that both feature changes and error propagation are highly time- and depth-varying. Motivated by this, we propose ProCache, a training-free dynamic feature caching framework that addresses these issues via two core components: (i) a constraint-aware caching pattern search module that generates non-uniform activation schedules through offline constrained sampling, tailored to the model's temporal characteristics; and (ii) a selective computation module that selectively computes within deep blocks and high-importance tokens for cached segments to mitigate error accumulation with minimal overhead. Extensive experiments on PixArt-alpha and DiT demonstrate that ProCache achieves up to 1.96x and 2.90x acceleration with negligible quality degradation, significantly outperforming prior caching-based methods.
- Abstract(参考訳): Diffusion Transformer (DiTs) は、生成モデリングにおいて最先端のパフォーマンスを達成したが、その高い計算コストは、リアルタイムデプロイメントを妨げている。
機能キャッシングは時間的冗長性を利用して有望なトレーニング不要な加速ソリューションを提供するが,既存の手法では,(1)一様キャッシング間隔がDiTの非一様時間ダイナミックスと一致しないこと,(2)過度に大きなキャッシング間隔を持つナイーブ機能再利用が重大なエラー蓄積につながること,という2つの重要な制限が課されている。
本研究では,ディノライズ中のDiT特徴の進化を解析し,特徴変化と誤り伝播の双方が時間的・深さ的に変化していることを明らかにする。
これに触発されたProCacheは、トレーニング不要の動的機能キャッシュフレームワークで、2つのコアコンポーネントを介してこれらの問題に対処する。
一 オフラインの制約付きサンプリングにより一様でないアクティベーションスケジュールを生成する制約対応キャッシュパターン探索モジュールで、モデルの時間的特性に合わせて調整すること。
(i)深いブロック内で選択的に計算する選択計算モジュールとキャッシュされたセグメントに対する高重要トークンにより、最小限のオーバーヘッドでエラーの蓄積を軽減できる。
PixArt-alpha と DiT の大規模な実験により、ProCache は最大 1.96x と 2.90x のアクセラレーションを実現し、品質劣化を無視でき、キャッシュベースの手法よりも大幅に優れていた。
関連論文リスト
- H2-Cache: A Novel Hierarchical Dual-Stage Cache for High-Performance Acceleration of Generative Diffusion Models [7.8812023976358425]
H2-cacheは、現代的な生成拡散モデルアーキテクチャ用に設計された新しい階層型キャッシュ機構である。
本手法は,デノナイジングプロセスが構造決定段階と細部精製段階に機能的に分離できるという重要な知見に基づいて構築されている。
Fluxアーキテクチャの実験では、H2-cacheはベースラインとほぼ同じ画質を維持しながら、大きな加速(最大5.08倍)を達成することが示された。
論文 参考訳(メタデータ) (2025-10-31T04:47:14Z) - ERTACache: Error Rectification and Timesteps Adjustment for Efficient Diffusion [30.897215456167753]
拡散モデルは、本質的に反復的推論プロセスのため、かなりの計算オーバーヘッドに悩まされる。
我々は、両方のエラータイプを共同で修正する原則的なキャッシュフレームワークであるERTACacheを提案する。
ERTACacheは最大2倍の推論スピードアップを実現します。
論文 参考訳(メタデータ) (2025-08-27T10:37:24Z) - DiCache: Let Diffusion Model Determine Its Own Cache [62.954717254728166]
DiCacheは、実行時に拡散モデルを加速するためのトレーニング不要のアダプティブキャッシュ戦略である。
Online Probe Profiling Schemeは浅層オンラインプローブを利用して,キャッシュエラーのオンザフライインジケータをリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、マルチステップの履歴キャッシュから出力されるディープ層の特徴を近似する。
論文 参考訳(メタデータ) (2025-08-24T13:30:00Z) - PromptTea: Let Prompts Tell TeaCache the Optimal Threshold [1.0665410339553834]
一般的な加速戦略は、一定の間隔でキャッシング機構を介してモデル出力を再利用することである。
本稿では,入力プロンプトから直接推定されるシーンの複雑さに基づいて,再利用しきい値を自動的に調整する手法であるPrompt-Complexity-Aware(PCA)キャッシングを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:53:05Z) - FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [43.83288560196838]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。
FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。
複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文 参考訳(メタデータ) (2025-05-26T05:58:49Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。