論文の概要: Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.09681v1
- Date: Sun, 10 May 2026 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.369277
- Title: Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models
- Title(参考訳): 強制KV:効率的な自己回帰型ビデオ拡散モデルのためのハイブリッドKVキャッシュ圧縮
- Authors: Yicheng Ji, Zhizhou Zhong, Jun Zhang, Qin Yang, XiTai Jin, Ying Qin, Wenhan Luo, Shuiyang Mao, Wei Liu, Huan Li,
- Abstract要約: 自動回帰ビデオ拡散にKVキャッシュ圧縮を導入する。
本稿では,静的ヘッドに対する構造化静的プルーニングと動的ヘッドに対するセグメントワイド類似性に基づく動的プルーニングを行うハイブリッドKVキャッシュ圧縮戦略であるForcing-KVを提案する。
提案手法は,1つのNVIDIA H200 GPU上で毎秒29フレーム以上の生成速度と30%のキャッシュメモリ削減を実現し,LongLiveとSelf Forcingで最大1.35倍,1.50倍のスピードアップを実現し,さらに1080Pで2.82倍のスピードアップを実現した。
- 参考スコア(独自算出の注目度): 32.39747481484621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) video diffusion models adopt a streaming generation framework, enabling long-horizon video generation with real-time responsiveness, as exemplified by the Self Forcing training paradigm. However, existing AR video diffusion models still suffer from significant attention complexity and severe memory overhead due to the redundant key-value (KV) caches across historical frames, which limits scalability. In this paper, we tackle this challenge by introducing KV cache compression into autoregressive video diffusion. We observe that attention heads in mainstream AR diffusion models exhibit markedly distinct attention patterns and functional roles that remain stable across samples and denoising steps. Building on our empirical study of head-wise functional specialization, we divide the attention heads into two categories: static heads, which focus on transitions across autoregressive chunks and intra-frame fidelity, and dynamic heads, which govern inter-frame motion and consistency. We then propose Forcing-KV, a hybrid KV cache compression strategy that performs structured static pruning for static heads and dynamic pruning based on segment-wise similarity for dynamic heads. While maintaining output quality, our method achieves a generation speed of over 29 frames per second on a single NVIDIA H200 GPU along with 30% cache memory reduction, delivering up to 1.35x and 1.50x speedups on LongLive and Self Forcing at 480P resolution, and further scaling to 2.82x speedup at 1080P resolution. Code and demo videos are provided at https://zju-jiyicheng.github.io/Forcing-KV-Page.
- Abstract(参考訳): 自己回帰(AR)ビデオ拡散モデルはストリーミング生成フレームワークを採用しており、セルフフォーストレーニングパラダイムで例示されるように、リアルタイムの応答性を備えた長時間水平ビデオ生成を可能にする。
しかし、既存のARビデオ拡散モデルは、スケーラビリティを制限した履歴フレームにまたがる冗長なキー値(KV)キャッシュのため、注意の複雑さとメモリオーバーヘッドに悩まされている。
本稿では,自動回帰ビデオ拡散にKVキャッシュ圧縮を導入することで,この問題に対処する。
メインストリームAR拡散モデルにおける注目ヘッドは、サンプル間で安定な注意パターンと機能的役割を顕著に表している。
頭部機能専門化に関する実証研究に基づいて, 頭部を静的な頭部, 自己回帰的チャンク, フレーム内忠実度, フレーム間の運動と整合性を管理する動的頭部の2つのカテゴリに分けた。
次に、静的ヘッドに対する構造化静的プルーニングと動的ヘッドに対するセグメントワイド類似性に基づく動的プルーニングを行うハイブリッドKVキャッシュ圧縮戦略であるForcing-KVを提案する。
出力品質を維持しながら、1つのNVIDIA H200 GPUで毎秒29フレーム以上の生成速度と30%のキャッシュメモリ削減を実現し、480P解像度でLongLiveとSelf Forcingで最大1.35倍と1.50倍のスピードアップを実現し、さらに1080P解像度で2.82倍のスピードアップを実現した。
コードとデモビデオはhttps://zju-jiyicheng.github.io/Forcing-KV-Page.comで公開されている。
関連論文リスト
- Flow caching for autoregressive video generation [72.10021661412364]
自動回帰ビデオ生成に特化して設計された,最初のキャッシュフレームワークであるFlowCacheを紹介する。
本手法は,MAGI-1では2.38倍,SkyReels-V2では6.7倍,品質劣化は無視できない。
論文 参考訳(メタデータ) (2026-02-11T13:11:04Z) - Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization [83.406036390582]
Quant VideoGen(QVG)は、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークである。
これにより、KVメモリを最大7.0倍に削減できる。
生成品質において、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T00:54:32Z) - Efficient Autoregressive Video Diffusion with Dummy Head [35.72735205078644]
本研究では,異なるヘッド間のコンテキストアクセシビリティを制御するDummy Forcingを提案する。
具体的には、提案したヘテロジニアスメモリ割り当てにより、動的ヘッドプログラミングを伴う頭部コンテキスト冗長性が低減される。
追加のトレーニングなしでは、Dummy Forcingはベースライン上で最大2.0倍のスピードアップを実現し、ビデオ生成を0.5%以下の品質低下で24.3 FPSでサポートしています。
論文 参考訳(メタデータ) (2026-01-28T11:20:43Z) - HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference [14.17979669446161]
トレーニング不要な動的圧縮フレームワークであるHeteroCacheを提案する。
We show that HeteroCache achieves state-of-the-art performance on multiple long-context benchmarks and accelerates decoding by up $3times$ in the original model in the 224K context。
論文 参考訳(メタデータ) (2026-01-20T07:35:06Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。