論文の概要: No Cache Left Idle: Accelerating diffusion model via Extreme-slimming Caching
- arxiv url: http://arxiv.org/abs/2512.12604v1
- Date: Sun, 14 Dec 2025 09:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.341031
- Title: No Cache Left Idle: Accelerating diffusion model via Extreme-slimming Caching
- Title(参考訳): キャッシュを残さない:極スリムキャッシングによる拡散モデルの高速化
- Authors: Tingyan Wen, Haoyu Li, Yihuang Chen, Xing Zhou, Lifei Zhu, Xueqian Wang,
- Abstract要約: トレーニングフリーでキャッシュベースのアクセラレータであるX-Slim(e-Xtreme-Slimming Caching)を提案する。
タイムステップ、構造(ブロック)、空間(トークン)にわたってキャッシュ可能な冗長性を利用する最初の統一されたフレームワークである。
遅延を最大4.97倍と3.52倍に減らし、知覚損失を最小限に抑える。
- 参考スコア(独自算出の注目度): 17.396336005757025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models achieve remarkable generative quality, but computational overhead scales with step count, model depth, and sequence length. Feature caching is effective since adjacent timesteps yield highly similar features. However, an inherent trade-off remains: aggressive timestep reuse offers large speedups but can easily cross the critical line, hurting fidelity, while block- or token-level reuse is safer but yields limited computational savings. We present X-Slim (eXtreme-Slimming Caching), a training-free, cache-based accelerator that, to our knowledge, is the first unified framework to exploit cacheable redundancy across timesteps, structure (blocks), and space (tokens). Rather than simply mixing levels, X-Slim introduces a dual-threshold controller that turns caching into a push-then-polish process: it first pushes reuse at the timestep level up to an early-warning line, then switches to lightweight block- and token-level refresh to polish the remaining redundancy, and triggers full inference once the critical line is crossed to reset accumulated error. At each level, context-aware indicators decide when and where to cache. Across diverse tasks, X-Slim advances the speed-quality frontier. On FLUX.1-dev and HunyuanVideo, it reduces latency by up to 4.97x and 3.52x with minimal perceptual loss. On DiT-XL/2, it reaches 3.13x acceleration and improves FID by 2.42 over prior methods.
- Abstract(参考訳): 拡散モデルは顕著な生成品質を達成するが、計算オーバーヘッドはステップ数、モデル深さ、シーケンスの長さでスケールする。
隣の時間ステップは、非常によく似た特徴をもたらすので、フィーチャーキャッシングは効果的です。
しかし、本質的なトレードオフは残る: アグレッシブなタイムステップの再利用は大きなスピードアップを提供するが、クリティカルラインを横切ることができ、忠実さを損なう。
トレーニング不要でキャッシュベースのアクセラレータであるX-Slim(eXtreme-Slimming Caching)を紹介します。
X-Slimは、単にレベルを混ぜるのではなく、二重スレッドのコントローラを導入し、キャッシュをプッシュ-then-polishプロセスに変換する。最初は、タイムステップレベルでの再利用を早期警告ラインにプッシュし、その後、軽量なブロックレベルとトークンレベルのリフレッシュに切り替えて、残りの冗長性を洗練し、クリティカルラインが交差して累積エラーをリセットする、完全な推論をトリガーする。
各レベルにおいて、コンテキスト認識インジケータは、いつ、どこでキャッシュするかを決定する。
様々なタスクにまたがって、X-Slimはスピードクオリティのフロンティアを前進させる。
FLUX.1-dev と HunyuanVideo では、最小の知覚損失でレイテンシを 4.97x と 3.52x に短縮する。
DiT-XL/2では3.13倍加速し、FIDを2.42倍改善する。
関連論文リスト
- H2-Cache: A Novel Hierarchical Dual-Stage Cache for High-Performance Acceleration of Generative Diffusion Models [7.8812023976358425]
H2-cacheは、現代的な生成拡散モデルアーキテクチャ用に設計された新しい階層型キャッシュ機構である。
本手法は,デノナイジングプロセスが構造決定段階と細部精製段階に機能的に分離できるという重要な知見に基づいて構築されている。
Fluxアーキテクチャの実験では、H2-cacheはベースラインとほぼ同じ画質を維持しながら、大きな加速(最大5.08倍)を達成することが示された。
論文 参考訳(メタデータ) (2025-10-31T04:47:14Z) - LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation [40.968338980157846]
拡散モデルに基づくビデオ生成の先進的な研究領域として、トレーニングフリー加速が出現している。
本稿では,推論過程を符号化・復号化・復号化段階に分解する。
本稿では,メモリ消費を減らすためのステージ固有の戦略を提案する。
論文 参考訳(メタデータ) (2025-10-06T20:54:44Z) - ERTACache: Error Rectification and Timesteps Adjustment for Efficient Diffusion [30.897215456167753]
拡散モデルは、本質的に反復的推論プロセスのため、かなりの計算オーバーヘッドに悩まされる。
我々は、両方のエラータイプを共同で修正する原則的なキャッシュフレームワークであるERTACacheを提案する。
ERTACacheは最大2倍の推論スピードアップを実現します。
論文 参考訳(メタデータ) (2025-08-27T10:37:24Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - MagCache: Fast Video Generation with Magnitude-Aware Cache [91.2771453279713]
我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。
我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。
実験の結果、MagCacheはOpen-Sora、CogVideoX、Wan 2.1、HunyuanVideoで2.10x-2.68倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-06-10T17:59:02Z) - FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [43.83288560196838]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。
FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。
複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文 参考訳(メタデータ) (2025-05-26T05:58:49Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。