論文の概要: Forecast the Principal, Stabilize the Residual: Subspace-Aware Feature Caching for Efficient Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2601.07396v1
- Date: Mon, 12 Jan 2026 10:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.337948
- Title: Forecast the Principal, Stabilize the Residual: Subspace-Aware Feature Caching for Efficient Diffusion Transformers
- Title(参考訳): 効率よい拡散変換器のための部分空間を考慮した特徴キャッシング
- Authors: Guantao Chen, Shikang Zheng, Yuqi Lin, Linfeng Zhang,
- Abstract要約: Diffusion Transformer (DiT) モデルは画像およびビデオ生成において前例のない品質を達成したが、反復サンプリングプロセスは計算的に禁止されている。
Singular Value Decomposition (SVD)を介して拡散機能を分解するサブスペース対応キャッシュフレームワークであるSVD-Cacheを提案する。
私たちのコードは補足的な素材で、Githubでリリースされます。
- 参考スコア(独自算出の注目度): 9.698781486878206
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion Transformer (DiT) models have achieved unprecedented quality in image and video generation, yet their iterative sampling process remains computationally prohibitive. To accelerate inference, feature caching methods have emerged by reusing intermediate representations across timesteps. However, existing caching approaches treat all feature components uniformly. We reveal that DiT feature spaces contain distinct principal and residual subspaces with divergent temporal behavior: the principal subspace evolves smoothly and predictably, while the residual subspace exhibits volatile, low-energy oscillations that resist accurate prediction. Building on this insight, we propose SVD-Cache, a subspace-aware caching framework that decomposes diffusion features via Singular Value Decomposition (SVD), applies exponential moving average (EMA) prediction to the dominant low-rank components, and directly reuses the residual subspace. Extensive experiments demonstrate that SVD-Cache achieves near-lossless across diverse models and methods, including 5.55$\times$ speedup on FLUX and HunyuanVideo, and compatibility with model acceleration techniques including distillation, quantization and sparse attention. Our code is in supplementary material and will be released on Github.
- Abstract(参考訳): Diffusion Transformer (DiT) モデルは画像およびビデオ生成において前例のない品質を達成したが、反復サンプリングプロセスは計算的に禁止されている。
推論を高速化するために、タイムステップ間で中間表現を再利用することで、フィーチャーキャッシングメソッドが出現した。
しかし、既存のキャッシュアプローチはすべての機能コンポーネントを均一に扱う。
主部分空間は滑らかに、予測可能であり、残りの部分空間は、正確な予測に抵抗する揮発性で低エネルギーの振動を示す。
この知見に基づいて,Singular Value Decomposition(SVD)を介して拡散機能を分解するサブスペース対応キャッシュフレームワークであるSVD-Cacheを提案し,支配的な低ランクコンポーネントに対して指数的移動平均(EMA)予測を適用し,残余部分空間を直接再利用する。
555$\times$ speedup on FLUX and HunyuanVideo, 蒸留, 量子化, スパースアテンションを含むモデルアクセラレーション技術との互換性など, SVDキャッシュは様々なモデルや手法でほぼ無作為に実現されている。
私たちのコードは補足的な素材で、Githubでリリースされます。
関連論文リスト
- ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration [14.306565517230775]
Diffusion Transformer (DiTs) は、生成モデリングにおいて最先端のパフォーマンスを達成したが、その高い計算コストは、リアルタイムデプロイメントを妨げている。
既存の手法では,(1) 均一なキャッシング間隔がDiTの非一様時間ダイナミクスと一致しないこと,(2) 過大なキャッシング間隔によるナイーブな機能再利用が重大なエラーの蓄積につながること,の2つの重要な制限が課されている。
ProCacheはトレーニング不要な動的機能キャッシュフレームワークで、2つのコアコンポーネントを介してこれらの問題に対処する。
論文 参考訳(メタデータ) (2025-12-19T07:27:19Z) - HiCache: Training-free Acceleration of Diffusion Models via Hermite Polynomial-based Feature Caching [19.107716099809707]
HiCacheはトレーニング不要のアクセラレーションフレームワークで、機能予測を改善する。
本稿では,予測精度を保ちながら数値安定性を確保する二重スケーリング機構を提案する。
論文 参考訳(メタデータ) (2025-08-23T10:35:16Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。
当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文 参考訳(メタデータ) (2025-04-04T03:30:15Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。