論文の概要: DiCache: Let Diffusion Model Determine Its Own Cache
- arxiv url: http://arxiv.org/abs/2508.17356v1
- Date: Sun, 24 Aug 2025 13:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.48672
- Title: DiCache: Let Diffusion Model Determine Its Own Cache
- Title(参考訳): DiCache: 拡散モデルが独自のキャッシュを決定する
- Authors: Jiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tong Wu, Dahua Lin, Jiaqi Wang,
- Abstract要約: 実行時に拡散モデルを高速化するためのトレーニング不要な適応型キャッシュ戦略であるDiCacheを提案する。
Online Probe Profiling Schemeは、浅層オンラインプローブを利用して、キャッシュエラーに対する安定した事前をリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、浅層プローブ機能トラジェクトリに基づくマルチステップキャッシュを組み合わせて、現在の機能をよりよく近似する。
- 参考スコア(独自算出の注目度): 63.73224201922458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the rapid development of acceleration techniques for diffusion models, especially caching-based acceleration methods. These studies seek to answer two fundamental questions: "When to cache" and "How to use cache", typically relying on predefined empirical laws or dataset-level priors to determine the timing of caching and utilizing handcrafted rules for leveraging multi-step caches. However, given the highly dynamic nature of the diffusion process, they often exhibit limited generalizability and fail on outlier samples. In this paper, a strong correlation is revealed between the variation patterns of the shallow-layer feature differences in the diffusion model and those of final model outputs. Moreover, we have observed that the features from different model layers form similar trajectories. Based on these observations, we present DiCache, a novel training-free adaptive caching strategy for accelerating diffusion models at runtime, answering both when and how to cache within a unified framework. Specifically, DiCache is composed of two principal components: (1) Online Probe Profiling Scheme leverages a shallow-layer online probe to obtain a stable prior for the caching error in real time, enabling the model to autonomously determine caching schedules. (2) Dynamic Cache Trajectory Alignment combines multi-step caches based on shallow-layer probe feature trajectory to better approximate the current feature, facilitating higher visual quality. Extensive experiments validate DiCache's capability in achieving higher efficiency and improved visual fidelity over state-of-the-art methods on various leading diffusion models including WAN 2.1, HunyuanVideo for video generation, and Flux for image generation.
- Abstract(参考訳): 近年,拡散モデル,特にキャッシングに基づく加速法の開発が急速に進んでいる。
これらの研究は、“キャッシュのタイミング”と“キャッシュの使い方”という2つの基本的な疑問に答えようとしている。一般的には、事前に定義された経験則やデータセットレベルの事前設定に依存して、キャッシュのタイミングを決定し、マルチステップキャッシュを活用するための手作りのルールを活用する。
しかし、拡散過程の非常にダイナミックな性質を考えると、それらはしばしば限定的な一般化性を示し、オフラヤサンプルでは失敗する。
本稿では,拡散モデルにおける浅層特徴差の変動パターンと最終モデル出力の変動パターンとの間に強い相関関係を示す。
さらに,異なるモデル層の特徴が類似した軌道を形成することも確認した。
これらの観測に基づいて、我々は、実行時に拡散モデルを加速するための新しいトレーニングフリー適応キャッシュ戦略であるDiCacheを紹介し、いつ、どのように統合されたフレームワーク内でキャッシュするかを問う。
1) Online Probe Profiling Schemeは浅層オンラインプローブを利用して、キャッシュエラーに対する安定した事前をリアルタイムで取得し、モデルが自動でキャッシュスケジュールを決定することができる。
2) 動的キャッシュトラジェクトリアライメントは、浅層プローブ特徴トラジェクトリに基づくマルチステップキャッシュを組み合わせることで、現在の特徴をよりよく近似し、視覚的品質を向上させる。
広範にわたる実験により,WAN 2.1,Hunyuan Video,Fluxなどの画像生成モデルにおいて,高効率を実現するためのDiCacheの能力を検証し,最先端の手法に対する視覚的忠実度を向上した。
関連論文リスト
- MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration [15.22288174114487]
キャッシングは、DiTモデルで広く採用されている最適化手法である。
効率的なビデオDiT推論のためのトレーニング不要なキャッシュベースのフレームワークであるMixCacheを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:49:33Z) - MagCache: Fast Video Generation with Magnitude-Aware Cache [91.51242917160373]
我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。
我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。
実験の結果、MagCacheはOpen-SoraとWan 2.1でそれぞれ2.1倍と2.68倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-06-10T17:59:02Z) - Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。
当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文 参考訳(メタデータ) (2025-04-04T03:30:15Z) - Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。
TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-28T12:50:05Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。