論文の概要: PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache
- arxiv url: http://arxiv.org/abs/2601.04359v1
- Date: Wed, 07 Jan 2026 19:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.892404
- Title: PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache
- Title(参考訳): PackCache: コンパクトなKVキャッシュによる一元化自動回帰ビデオ生成のためのトレーニング不要な高速化手法
- Authors: Kunyang Li, Mubarak Shah, Yuzhang Shang,
- Abstract要約: トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
- 参考スコア(独自算出の注目度): 61.57938553036056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A unified autoregressive model is a Transformer-based framework that addresses diverse multimodal tasks (e.g., text, image, video) as a single sequence modeling problem under a shared token space. Such models rely on the KV-cache mechanism to reduce attention computation from O(T^2) to O(T); however, KV-cache size grows linearly with the number of generated tokens, and it rapidly becomes the dominant bottleneck limiting inference efficiency and generative length. Unified autoregressive video generation inherits this limitation. Our analysis reveals that KV-cache tokens exhibit distinct spatiotemporal properties: (i) text and conditioning-image tokens act as persistent semantic anchors that consistently receive high attention, and (ii) attention to previous frames naturally decays with temporal distance. Leveraging these observations, we introduce PackCache, a training-free KV-cache management method that dynamically compacts the KV cache through three coordinated mechanisms: condition anchoring that preserves semantic references, cross-frame decay modeling that allocates cache budget according to temporal distance, and spatially preserving position embedding that maintains coherent 3D structure under cache removal. In terms of efficiency, PackCache accelerates end-to-end generation by 1.7-2.2x on 48-frame long sequences, showcasing its strong potential for enabling longer-sequence video generation. Notably, the final four frames - the portion most impacted by the progressively expanding KV-cache and thus the most expensive segment of the clip - PackCache delivers a 2.6x and 3.7x acceleration on A40 and H200, respectively, for 48-frame videos.
- Abstract(参考訳): 統合自己回帰モデルはTransformerベースのフレームワークであり、共有トークン空間下での単一シーケンスモデリング問題として様々なマルチモーダルタスク(テキスト、画像、ビデオなど)に対処する。
このようなモデルは、注意計算をO(T^2)からO(T)に還元するKV-cache機構に依存しているが、KV-cacheサイズは生成されたトークンの数とともに線形に成長し、推論効率と生成長に支配的なボトルネックとなる。
統一自己回帰ビデオ生成はこの制限を継承する。
分析の結果,KV-cacheトークンは時空間特性が異なることが明らかとなった。
(i)テキストと条件付画像トークンは、常に注目を集める永続的なセマンティックアンカーとして機能し、
(ii) 従来のフレームへの注意は時間的距離で自然に減衰する。
そこで我々は,3つの協調機構によりKVキャッシュを動的にコンパクト化するトレーニングフリーなKVキャッシュ管理手法であるPackCacheを紹介した。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を加速し、長いシーケンスのビデオ生成を可能にする強力な可能性を示している。
特に、最後の4フレーム(KV-cacheの増大の影響が最も大きい部分)はクリップの最も高価な部分であり、PackCacheはA40とH200でそれぞれ2.6xと3.7xのアクセラレーションを48フレームビデオで提供する。
関連論文リスト
- EpiCache: Episodic KV Cache Management for Long Conversational Question Answering [15.288494370436469]
長時間会話型質問応答のためのトレーニング不要なKVキャッシュ管理フレームワークであるEpiCacheを紹介した。
EpiCacheはブロックワイズプリフィルを通じてキャッシュの成長を制限し、エピソードKV圧縮を通じてトピック関連コンテキストを保存する。
3つのLongConvQAベンチマークで、EpiCacheは40%の精度向上を実現し、4-6倍の圧縮でほぼ完全なKVの精度を維持し、レイテンシ/メモリを2.4倍/3.5倍に削減した。
論文 参考訳(メタデータ) (2025-09-22T06:56:35Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文 参考訳(メタデータ) (2025-03-16T12:49:44Z) - Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文 参考訳(メタデータ) (2024-11-25T13:33:41Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。