論文の概要: Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
- arxiv url: http://arxiv.org/abs/2602.01801v1
- Date: Mon, 02 Feb 2026 08:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.011718
- Title: Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
- Title(参考訳): 時間キャッシュ圧縮とスパースアテンションによる高速自己回帰ビデオ拡散と世界モデル
- Authors: Dvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari,
- Abstract要約: 自動回帰ビデオ拡散モデルは、ストリーミング生成、ロングフォーム合成への扉を開くこと、ビデオワールドモデル、インタラクティブなニューラルゲームエンジンを可能にする。
生成が進むにつれて、KVキャッシュが増加し、レイテンシの増加とGPUメモリのエスカレーションが生じる。
我々は、自己回帰拡散のための統合されたトレーニングなしアテンションフレームワークを提案する: TempCacheは、時間的対応によるKVキャッシュをバウンドキャッシュ成長に圧縮し、AnnCAは、高速近傍マッチングを用いてフレーム関連プロンプトを選択することで、クロスアテンションを加速し、AnnSAは各クエリを制限して自己アテンションを拡大する。
- 参考スコア(独自算出の注目度): 37.91838955436801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.
- Abstract(参考訳): 自動回帰ビデオ拡散モデルは、ストリーミング生成、ロングフォーム合成への扉を開くこと、ビデオワールドモデル、インタラクティブなニューラルゲームエンジンを可能にする。
生成が進むにつれて、KVキャッシュは増加し、レイテンシの増加とGPUメモリのエスカレーションの両方を引き起こします。
本研究では,自動回帰ビデオ拡散における冗長性について検討し,フレーム間のキャッシュ鍵の類似性,多くの注意計算を冗長にするクエリ/キーの進化の遅さ,フレームごとのトークンのサブセットが小さい長いプロンプト上でのクロスアテンション,という3つの永続的情報源を同定する。
このような観察に基づいて,TempCacheは時間的対応によりKVキャッシュを圧縮し,キャッシュ増加を制限し,AnnCAはフレーム関連プロンプトトークンを選択することで,フレーム関連プロンプトの選択を高速化し,AnnSAは,各クエリをセマンティックにマッチしたキーに制限することで,自己アテンションを分散する。
これらのモジュールは、注意、計算、メモリを減らし、既存の自己回帰拡散バックボーンや世界モデルと互換性がある。
実験では、ほぼ同一の視覚的品質を維持しながら、x5--x10のエンドツーエンドのスピードアップを実証し、重要なことは、長期間のロールアウトで安定したスループットとほぼ一定に近いGPUメモリ使用率を維持することである。
関連論文リスト
- VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding [52.69880888587866]
現在のビデオ大言語モデル(ビデオLLM)は、典型的にはエンコーダビジョンを介してフレームを符号化し、自己回帰(AR)LLMを使用して理解と生成を行う。
本稿では,言語モデル(DLM)に基づく拡散ビデオLLMであるVidLaDAを提案する。
実験によると、VidLaDAは最先端のARベースラインと競合し、DLMベースラインを上回り、MARS-Cacheは精度を損なうことなく12倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-25T15:02:01Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文 参考訳(メタデータ) (2025-09-17T07:58:36Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文 参考訳(メタデータ) (2024-11-25T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。