論文の概要: ERTACache: Error Rectification and Timesteps Adjustment for Efficient Diffusion
- arxiv url: http://arxiv.org/abs/2508.21091v1
- Date: Wed, 27 Aug 2025 10:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.816285
- Title: ERTACache: Error Rectification and Timesteps Adjustment for Efficient Diffusion
- Title(参考訳): ERTACache: 効率的な拡散のためのエラー修正とタイムステップ調整
- Authors: Xurui Peng, Hong Liu, Chenqian Yan, Rui Ma, Fangmin Chen, Xing Wang, Zhihua Wu, Songwei Liu, Mingbao Lin,
- Abstract要約: 拡散モデルは、本質的に反復的推論プロセスのため、かなりの計算オーバーヘッドに悩まされる。
我々は、両方のエラータイプを共同で修正する原則的なキャッシュフレームワークであるERTACacheを提案する。
ERTACacheは最大2倍の推論スピードアップを実現します。
- 参考スコア(独自算出の注目度): 30.897215456167753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models suffer from substantial computational overhead due to their inherently iterative inference process. While feature caching offers a promising acceleration strategy by reusing intermediate outputs across timesteps, naive reuse often incurs noticeable quality degradation. In this work, we formally analyze the cumulative error introduced by caching and decompose it into two principal components: feature shift error, caused by inaccuracies in cached outputs, and step amplification error, which arises from error propagation under fixed timestep schedules. To address these issues, we propose ERTACache, a principled caching framework that jointly rectifies both error types. Our method employs an offline residual profiling stage to identify reusable steps, dynamically adjusts integration intervals via a trajectory-aware correction coefficient, and analytically approximates cache-induced errors through a closed-form residual linearization model. Together, these components enable accurate and efficient sampling under aggressive cache reuse. Extensive experiments across standard image and video generation benchmarks show that ERTACache achieves up to 2x inference speedup while consistently preserving or even improving visual quality. Notably, on the state-of-the-art Wan2.1 video diffusion model, ERTACache delivers 2x acceleration with minimal VBench degradation, effectively maintaining baseline fidelity while significantly improving efficiency. The code is available at https://github.com/bytedance/ERTACache.
- Abstract(参考訳): 拡散モデルは、本質的に反復的推論プロセスのため、かなりの計算オーバーヘッドに悩まされる。
フィーチャーキャッシングは、タイムステップ全体で中間出力を再利用することで、有望な加速戦略を提供するが、単純な再利用は、しばしば顕著な品質劣化を引き起こす。
本研究では,キャッシュによって引き起こされる累積誤差を公式に解析し,キャッシュ出力の不正確さに起因する特徴シフト誤差と,固定されたタイムステップスケジュール下でのエラー伝搬から生じるステップ増幅誤差の2つの主成分に分解する。
これらの問題に対処するために、我々は、両方のエラータイプを共同で修正する原則的なキャッシュフレームワークであるERTACacheを提案する。
提案手法では, 再利用可能なステップの同定にオフライン残差プロファイリングステージを用い, 軌道認識補正係数を用いて積分間隔を動的に調整し, 閉形式線形化モデルを用いてキャッシュ誘起誤差を解析的に近似する。
これらのコンポーネントは、アグレッシブなキャッシュ再利用の下で、正確で効率的なサンプリングを可能にする。
標準画像およびビデオ生成ベンチマークによる大規模な実験により、ERTACacheは最大2倍の推論スピードアップを実現し、常にビジュアル品質を保存または改善している。
特に、最先端のWan2.1ビデオ拡散モデルでは、ERTACacheはVBenchの劣化を最小限に抑え、ベースラインの忠実さを効果的に維持し、効率を大幅に改善する。
コードはhttps://github.com/bytedance/ERTACacheで入手できる。
関連論文リスト
- DiCache: Let Diffusion Model Determine Its Own Cache [63.73224201922458]
実行時に拡散モデルを高速化するためのトレーニング不要な適応型キャッシュ戦略であるDiCacheを提案する。
Online Probe Profiling Schemeは、浅層オンラインプローブを利用して、キャッシュエラーに対する安定した事前をリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、浅層プローブ機能トラジェクトリに基づくマルチステップキャッシュを組み合わせて、現在の機能をよりよく近似する。
論文 参考訳(メタデータ) (2025-08-24T13:30:00Z) - PromptTea: Let Prompts Tell TeaCache the Optimal Threshold [1.0665410339553834]
一般的な加速戦略は、一定の間隔でキャッシング機構を介してモデル出力を再利用することである。
本稿では,入力プロンプトから直接推定されるシーンの複雑さに基づいて,再利用しきい値を自動的に調整する手法であるPrompt-Complexity-Aware(PCA)キャッシングを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:53:05Z) - MagCache: Fast Video Generation with Magnitude-Aware Cache [91.51242917160373]
我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。
我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。
実験の結果、MagCacheはOpen-SoraとWan 2.1でそれぞれ2.1倍と2.68倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-06-10T17:59:02Z) - FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [46.57781555466333]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。
FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。
複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文 参考訳(メタデータ) (2025-05-26T05:58:49Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - FEB-Cache: Frequency-Guided Exposure Bias Reduction for Enhancing Diffusion Transformer Caching [4.8677910801584385]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。
本稿では,キャッシュが露出バイアスを大幅に増幅し,生成品質が低下することを確認する。
我々は,非露出バイアス拡散プロセスと整合した共同キャッシュ戦略であるFEBキャッシュを導入する。
論文 参考訳(メタデータ) (2025-03-10T09:49:18Z) - CacheQuant: Comprehensively Accelerated Diffusion Models [3.78219736760145]
CacheQuantは、モデルキャッシングと量子化の技術を共同で最適化することで、拡散モデルを包括的に高速化する、新しいトレーニング不要のパラダイムである。
実験の結果、CacheQuantはMS-COCO上の安定拡散のために5.18のスピードアップと4の圧縮を実現しており、CLIPスコアは0.02しか失われていない。
論文 参考訳(メタデータ) (2025-03-03T09:04:51Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。