論文の概要: Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.05315v1
- Date: Thu, 05 Mar 2026 15:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.308918
- Title: Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers
- Title(参考訳): 拡散変圧器高速化のための周波数対応誤差境界キャッシング
- Authors: Guandong Li,
- Abstract要約: ディフュージョントランスフォーマー(DiT)は高品質な画像生成とビデオ生成の主要なアーキテクチャとして登場してきた。
既存のキャッシュ手法は、タイムステップ間で中間計算を再利用することで、DiTを加速するが、それらは共通の制限を共有している。
本稿では、時間認識動的スケジューリング(TADS)、累積誤差予算(CEB)、周波数分解キャッシング(FDC)からなる統合キャッシュフレームワークであるSpectralCacheを提案する。
- 参考スコア(独自算出の注目度): 11.772150619675527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have emerged as the dominant architecture for high-quality image and video generation, yet their iterative denoising process incurs substantial computational cost during inference. Existing caching methods accelerate DiTs by reusing intermediate computations across timesteps, but they share a common limitation: treating the denoising process as uniform across time,depth, and feature dimensions. In this work, we identify three orthogonal axes of non-uniformity in DiT denoising: (1) temporal -- sensitivity to caching errors varies dramatically across the denoising trajectory; (2) depth -- consecutive caching decisions lead to cascading approximation errors; and (3) feature -- different components of the hidden state exhibit heterogeneous temporal dynamics. Based on these observations, we propose SpectralCache, a unified caching framework comprising Timestep-Aware Dynamic Scheduling (TADS), Cumulative Error Budgets (CEB), and Frequency-Decomposed Caching (FDC). On FLUX.1-schnell at 512x512 resolution, SpectralCache achieves 2.46x speedup with LPIPS 0.217 and SSIM 0.727, outperforming TeaCache (2.12x, LPIPS 0.215, SSIM 0.734) by 16% in speed while maintaining comparable quality (LPIPS difference < 1%). Our approach is training-free, plug-and-play, and compatible with existing DiT architectures.
- Abstract(参考訳): 拡散変換器 (DiT) は高品質な画像生成やビデオ生成において支配的なアーキテクチャとして登場しているが, 反復的復調処理は推論時にかなりの計算コストを発生させる。
既存のキャッシュ手法は、タイムステップ間で中間計算を再利用することで、DiTを加速するが、それらは共通の制限を共有している。
本研究では,DiT の非一様性の直交軸を3つ同定する:(1) 時間的 -- キャッシング誤差に対する感度は,デノイング軌道全体で劇的に変化する; (2) 深さ的 -- 連続的なキャッシング決定はカスケード近似誤差につながる;(3) 特徴的 -- 隠蔽状態の異なる成分は異種時間的ダイナミクスを示す。
これらの観測結果に基づいて、タイムステップ対応動的スケジューリング(TADS)、累積エラー予算(CEB)、周波数分解キャッシュ(FDC)からなる統合キャッシュフレームワークであるSpectralCacheを提案する。
512x512解像度のFLUX.1-schnellでは、SpectralCacheはLPIPS 0.217とSSIM 0.727で2.46倍のスピードアップを達成し、TeaCache(2.12x、LPIPS 0.215、SSIM 0.734)を16%高速化した。
当社のアプローチは、トレーニングフリーで、プラグイン&プレイで、既存のDiTアーキテクチャと互換性があります。
関連論文リスト
- SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching [75.02865981328509]
キャッシュは、以前計算されたモデル出力をタイムステップで再利用することで計算を減らす。
本稿では,動的キャッシュポリシーであるSensitivity-Aware Caching(SenCache)を提案する。
SenCacheは、同様の計算予算の下で、既存のキャッシュメソッドよりも視覚的品質が向上する。
論文 参考訳(メタデータ) (2026-02-27T17:36:09Z) - DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers [6.406853903837331]
Diffusion Transformer (DiTs) は画像およびビデオ生成において最先端のパフォーマンスを達成したが、その成功は重い計算コストが伴う。
動的トークン化(Dynamic tokenization)は,コンテントの複雑さと遅延時間に基づいて,パッチサイズを変化させる効率的なテストタイム戦略である。
提案手法は,画像生成と映像生成の段階でパッチサイズを動的に再配置し,知覚的生成品質を保ちながらコストを大幅に削減する。
論文 参考訳(メタデータ) (2026-02-19T00:15:20Z) - ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration [14.306565517230775]
Diffusion Transformer (DiTs) は、生成モデリングにおいて最先端のパフォーマンスを達成したが、その高い計算コストは、リアルタイムデプロイメントを妨げている。
既存の手法では,(1) 均一なキャッシング間隔がDiTの非一様時間ダイナミクスと一致しないこと,(2) 過大なキャッシング間隔によるナイーブな機能再利用が重大なエラーの蓄積につながること,の2つの重要な制限が課されている。
ProCacheはトレーニング不要な動的機能キャッシュフレームワークで、2つのコアコンポーネントを介してこれらの問題に対処する。
論文 参考訳(メタデータ) (2025-12-19T07:27:19Z) - Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration [16.87269278147738]
我々は3次元拡散推論のためのトレーニング不要な幾何認識キャッシュフレームワークであるFast3Dcacheを提案する。
提案手法は最大27.12%のスピードアップと54.8%のFLOPの削減を実現し,チャンファー距離 (2.48%) とFスコア (1.95%) で測定された幾何学的品質の低下を最小限に抑えた。
論文 参考訳(メタデータ) (2025-11-27T15:13:32Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - TaoCache: Structure-Maintained Video Generation Acceleration [4.594224594572109]
ビデオ拡散モデルのためのトレーニング不要のプラグイン・アンド・プレイキャッシュ戦略であるTaoCacheを提案する。
モデルのノイズ出力を予測するために固定点視点を採用しており、特に遅延雑音発生の段階で有効である。
論文 参考訳(メタデータ) (2025-08-12T14:40:36Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Accelerating Diffusion Transformer via Gradient-Optimized Cache [18.32157920050325]
時間的特徴再利用を通じて拡散トランスフォーマー(DiT)サンプリングを高速化するための効果的な戦略として機能キャッシングが登場した。
キャッシュされたブロックからのプログレッシブエラーの蓄積は生成品質を著しく低下させるため、これは難しい問題である。
本稿では,2つの重要なイノベーションを生かしたGradient-Perturbationd Cache (GOC)を提案する。
GOCはIS 216.28 (26.3%上)とFID 3.907 (43%下)をベースラインのDiTと比較して達成し、計算コストは同じである。
論文 参考訳(メタデータ) (2025-03-07T05:31:47Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。