論文の概要: Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
- arxiv url: http://arxiv.org/abs/2602.02958v1
- Date: Tue, 03 Feb 2026 00:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.161051
- Title: Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization
- Title(参考訳): Quant VideoGen: 2ビットKVキャッシュ量子化による自動回帰長ビデオ生成
- Authors: Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer,
- Abstract要約: Quant VideoGen(QVG)は、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークである。
これにより、KVメモリを最大7.0倍に削減できる。
生成品質において、既存のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 83.406036390582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid progress in autoregressive video diffusion, an emerging system algorithm bottleneck limits both deployability and generation capability: KV cache memory. In autoregressive video generation models, the KV cache grows with generation history and quickly dominates GPU memory, often exceeding 30 GB, preventing deployment on widely available hardware. More critically, constrained KV cache budgets restrict the effective working memory, directly degrading long horizon consistency in identity, layout, and motion. To address this challenge, we present Quant VideoGen (QVG), a training free KV cache quantization framework for autoregressive video diffusion models. QVG leverages video spatiotemporal redundancy through Semantic Aware Smoothing, producing low magnitude, quantization friendly residuals. It further introduces Progressive Residual Quantization, a coarse to fine multi stage scheme that reduces quantization error while enabling a smooth quality memory trade off. Across LongCat Video, HY WorldPlay, and Self Forcing benchmarks, QVG establishes a new Pareto frontier between quality and memory efficiency, reducing KV cache memory by up to 7.0 times with less than 4% end to end latency overhead while consistently outperforming existing baselines in generation quality.
- Abstract(参考訳): 自動回帰ビデオ拡散の急速な進歩にもかかわらず、新興システムアルゴリズムのボトルネックは、デプロイ性と生成能力の両方を制限する: KVキャッシュメモリである。
自動回帰ビデオ生成モデルでは、KVキャッシュは生成履歴とともに増加し、GPUメモリを急速に支配し、しばしば30GBを超える。
より重要なことは、制約のあるKVキャッシュ予算は効率的なワーキングメモリを制限し、アイデンティティ、レイアウト、動作における長い水平方向の一貫性を直接劣化させる。
この課題に対処するために、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークQuant VideoGen(QVG)を提案する。
QVGはSemantic Aware Smoothingを通じてビデオの時空間冗長性を活用し、低等級の量子化親和性残基を生成する。
さらにプログレッシブ残留量子化(Progressive Residual Quantization)は、スムーズなメモリトレードオフを実現しつつ、量子化エラーを低減する、粗いマルチステージスキームである。
LongCat Video、HY WorldPlay、Self Forcingベンチマーク全体で、QVGは品質とメモリ効率の間に新しいParetoフロンティアを確立し、KVキャッシュメモリを最大7.0倍に削減し、4%の終端遅延オーバーヘッドを減らし、生成品質において既存のベースラインを一貫して上回っている。
関連論文リスト
- Past- and Future-Informed KV Cache Policy with Salience Estimation in Autoregressive Video Diffusion [53.14908419375226]
既存のアプローチは一般的にKVキャッシュポリシーに依存しており、長期のビデオ生成におけるトークンの重要性の違いを無視している。
我々は,過去・未来型KVキャッシュポリシー(PaFu-KV)を提案する。
特にPaFu-KVは、双方向キャッシュ教師から抽出した軽量なサリエンス推定ヘッドを導入し、サリエンススコアを推定する。
このポリシーは、KVキャッシュ容量を小さくし、推論時にメモリフットプリントを減らすことで、より良い品質効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2026-01-29T15:55:29Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。