論文の概要: TaoCache: Structure-Maintained Video Generation Acceleration
- arxiv url: http://arxiv.org/abs/2508.08978v1
- Date: Tue, 12 Aug 2025 14:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.461921
- Title: TaoCache: Structure-Maintained Video Generation Acceleration
- Title(参考訳): TaoCache: 構造化されたビデオ生成の高速化
- Authors: Zhentao Fan, Zongzuo Wang, Weiwei Zhang,
- Abstract要約: ビデオ拡散モデルのためのトレーニング不要のプラグイン・アンド・プレイキャッシュ戦略であるTaoCacheを提案する。
モデルのノイズ出力を予測するために固定点視点を採用しており、特に遅延雑音発生の段階で有効である。
- 参考スコア(独自算出の注目度): 4.594224594572109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing cache-based acceleration methods for video diffusion models primarily skip early or mid denoising steps, which often leads to structural discrepancies relative to full-timestep generation and can hinder instruction following and character consistency. We present TaoCache, a training-free, plug-and-play caching strategy that, instead of residual-based caching, adopts a fixed-point perspective to predict the model's noise output and is specifically effective in late denoising stages. By calibrating cosine similarities and norm ratios of consecutive noise deltas, TaoCache preserves high-resolution structure while enabling aggressive skipping. The approach is orthogonal to complementary accelerations such as Pyramid Attention Broadcast (PAB) and TeaCache, and it integrates seamlessly into DiT-based frameworks. Across Latte-1, OpenSora-Plan v110, and Wan2.1, TaoCache attains substantially higher visual quality (LPIPS, SSIM, PSNR) than prior caching methods under the same speedups.
- Abstract(参考訳): 既存のビデオ拡散モデルのキャッシュベースの加速度法は、主に初期または中期の復調ステップをスキップし、多くの場合、フルタイムステップ生成に対する構造的相違が生じ、命令の追従や文字の整合性を阻害する。
TaoCacheは、残差ベースのキャッシュの代わりに、モデルのノイズ出力を予測するために固定ポイントの視点を採用し、特に遅延復調段階において有効である、トレーニングフリーのプラグイン・アンド・プレイキャッシュ戦略である。
連続するノイズデルタのコサイン類似度とノルム比を調整することにより、タオキャッシュは積極的なスキップを可能にしながら高分解能構造を保ちます。
このアプローチは、Praamid Attention Broadcast(PAB)やTeaCacheといった補完的なアクセラレーションに対して直交的であり、DiTベースのフレームワークにシームレスに統合される。
Latte-1、OpenSora-Plan v110、Wan2.1の他、TaoCacheは、同じスピードアップで以前のキャッシュ方法よりもかなり高い視覚的品質(LPIPS、SSIM、PSNR)を実現している。
関連論文リスト
- Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。
我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。
提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文 参考訳(メタデータ) (2025-07-03T17:59:54Z) - Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。
当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文 参考訳(メタデータ) (2025-04-04T03:30:15Z) - FEB-Cache: Frequency-Guided Exposure Bias Reduction for Enhancing Diffusion Transformer Caching [4.8677910801584385]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。
本稿では,キャッシュが露出バイアスを大幅に増幅し,生成品質が低下することを確認する。
我々は,非露出バイアス拡散プロセスと整合した共同キャッシュ戦略であるFEBキャッシュを導入する。
論文 参考訳(メタデータ) (2025-03-10T09:49:18Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。