論文の概要: WorldCache: Content-Aware Caching for Accelerated Video World Models
- arxiv url: http://arxiv.org/abs/2603.22286v1
- Date: Mon, 23 Mar 2026 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.845937
- Title: WorldCache: Content-Aware Caching for Accelerated Video World Models
- Title(参考訳): WorldCache: 加速されたビデオワールドモデルのためのコンテンツ対応キャッシュ
- Authors: Umair Nawaz, Ahmed Heakl, Ufaq Khan, Abdelrahman Shaker, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: 我々はPerception-Constrained Dynamic CaCacheフレームワークであるtextbfWorldCacheを紹介する。
WorldCacheは、機能をいつ、どのように再利用するかを改善します。
PAI-Benchで評価されたCosmos-2.5-2Bでは、WorldCacheはtextbf$2.3times$推論スピードアップを実現し、textbf99.4%のベースライン品質を維持している。
- 参考スコア(独自算出の注目度): 50.7543797435026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) power high-fidelity video world models but remain computationally expensive due to sequential denoising and costly spatio-temporal attention. Training-free feature caching accelerates inference by reusing intermediate activations across denoising steps; however, existing methods largely rely on a Zero-Order Hold assumption i.e., reusing cached features as static snapshots when global drift is small. This often leads to ghosting artifacts, blur, and motion inconsistencies in dynamic scenes. We propose \textbf{WorldCache}, a Perception-Constrained Dynamical Caching framework that improves both when and how to reuse features. WorldCache introduces motion-adaptive thresholds, saliency-weighted drift estimation, optimal approximation via blending and warping, and phase-aware threshold scheduling across diffusion steps. Our cohesive approach enables adaptive, motion-consistent feature reuse without retraining. On Cosmos-Predict2.5-2B evaluated on PAI-Bench, WorldCache achieves \textbf{2.3$\times$} inference speedup while preserving \textbf{99.4\%} of baseline quality, substantially outperforming prior training-free caching approaches. Our code can be accessed on \href{https://umair1221.github.io/World-Cache/}{World-Cache}.
- Abstract(参考訳): 拡散トランスフォーマー(DiT)は高忠実度ビデオワールドモデルに電力を供給しているが、逐次デノジングとコストのかかる時空間的注意のために計算コストは高い。
トレーニング不要な機能キャッシュは、デノナイジングステップ間で中間的アクティベーションを再利用することで推論を加速するが、既存のメソッドはZero-Order Holdの仮定、すなわち、グローバルドリフトが小さいときにキャッシュされた機能を静的スナップショットとして再利用することに大きく依存している。
これはしばしばゴースト・アーティファクト、ぼやけ、ダイナミック・シーンにおける動きの不整合につながる。
我々は、機能再利用のタイミングと方法の両方を改善する知覚制約付き動的キャッシングフレームワークである \textbf{WorldCache} を提案する。
WorldCacheでは、モーションアダプティブしきい値、サリエンシ重み付きドリフト推定、ブレンディングとワープによる最適近似、拡散ステップを越えたフェーズアウェアしきい値スケジューリングが導入されている。
協調的アプローチにより,適応的かつ動きに一貫性のある特徴の再利用が可能となる。
PAI-Benchで評価されたCosmos-Predict2.5-2Bでは、WorldCacheはベースライン品質の \textbf{2.3$\times$} の推論スピードアップを達成する。
私たちのコードは \href{https://umair1221.github.io/World-Cache/}{World-Cache} でアクセスできます。
関連論文リスト
- WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching [50.43356949257532]
拡散ワールドモデルに適したキャッシュフレームワークである textbfWorldCache を提案する。
We show that WorldCache delivers to textbf3.7$times$ end-to-end speedups while maintain textbf98% rollout quality。
論文 参考訳(メタデータ) (2026-03-06T14:43:47Z) - SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching [75.02865981328509]
キャッシュは、以前計算されたモデル出力をタイムステップで再利用することで計算を減らす。
本稿では,動的キャッシュポリシーであるSensitivity-Aware Caching(SenCache)を提案する。
SenCacheは、同様の計算予算の下で、既存のキャッシュメソッドよりも視覚的品質が向上する。
論文 参考訳(メタデータ) (2026-02-27T17:36:09Z) - Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache [8.614492355393578]
本研究では,グローバルパス計画問題として拡散加速を定式化する学習自由加速フレームワークDPCacheを提案する。
DPCacheは動的プログラミングを使用して、トラジェクティブの忠実さを維持しながら、全体のパスコストを最小限に抑える、キータイムステップの最適なシーケンスを選択する。
DiT、FLUX、HunyuanVideoの実験では、DPCacheは最小品質の損失で強力な加速を実現している。
論文 参考訳(メタデータ) (2026-02-26T06:13:33Z) - Flow caching for autoregressive video generation [72.10021661412364]
自動回帰ビデオ生成に特化して設計された,最初のキャッシュフレームワークであるFlowCacheを紹介する。
本手法は,MAGI-1では2.38倍,SkyReels-V2では6.7倍,品質劣化は無視できない。
論文 参考訳(メタデータ) (2026-02-11T13:11:04Z) - DiCache: Let Diffusion Model Determine Its Own Cache [62.954717254728166]
DiCacheは、実行時に拡散モデルを加速するためのトレーニング不要のアダプティブキャッシュ戦略である。
Online Probe Profiling Schemeは浅層オンラインプローブを利用して,キャッシュエラーのオンザフライインジケータをリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、マルチステップの履歴キャッシュから出力されるディープ層の特徴を近似する。
論文 参考訳(メタデータ) (2025-08-24T13:30:00Z) - MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration [15.22288174114487]
キャッシングは、DiTモデルで広く採用されている最適化手法である。
効率的なビデオDiT推論のためのトレーニング不要なキャッシュベースのフレームワークであるMixCacheを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:49:33Z) - TaoCache: Structure-Maintained Video Generation Acceleration [4.594224594572109]
ビデオ拡散モデルのためのトレーニング不要のプラグイン・アンド・プレイキャッシュ戦略であるTaoCacheを提案する。
モデルのノイズ出力を予測するために固定点視点を採用しており、特に遅延雑音発生の段階で有効である。
論文 参考訳(メタデータ) (2025-08-12T14:40:36Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。