論文の概要: KV Cache Quantization for Self-Forcing Video Generation: A 33-Method Empirical Study
- arxiv url: http://arxiv.org/abs/2603.27469v1
- Date: Sun, 29 Mar 2026 01:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.97543
- Title: KV Cache Quantization for Self-Forcing Video Generation: A 33-Method Empirical Study
- Title(参考訳): セルフフォースビデオ生成のためのKVキャッシュ量子化:33手法による実証的研究
- Authors: Suraj Ranganath, Vaishak Menon, Anish Patnaik,
- Abstract要約: 本稿では, Wan2.1 ベースの自己強制スタック上での自己強制ビデオ生成のための KV-cache 圧縮に関する総合的研究を行う。
本研究は,33種類の量子化とキャッシュ・ポリティクス,610個のプロンプトレベルの観測,63個のベンチマークレベルの要約について検討した。
我々は,ピークVRAM,ランタイム,圧縮率,VBench画像品質,BF16参照忠実度(SSIM,LPIPS,PSNR),端末ドリフトを共同評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-forcing video generation extends a short-horizon video model to longer rollouts by repeatedly feeding generated content back in as context. This scaling path immediately exposes a systems bottleneck: the key-value (KV) cache grows with rollout length, so longer videos require not only better generation quality but also substantially better memory behavior. We present a comprehensive empirical study of KV-cache compression for self-forcing video generation on a Wan2.1-based Self-Forcing stack. Our study covers 33 quantization and cache-policy variants, 610 prompt-level observations, and 63 benchmark-level summaries across two evaluation settings: MovieGen for single-shot 10-second generation and StoryEval for longer narrative-style stability. We jointly evaluate peak VRAM, runtime, realized compression ratio, VBench imaging quality, BF16-referenced fidelity (SSIM, LPIPS, PSNR), and terminal drift. Three findings are robust. First, the strongest practical operating region is a FlowCache-inspired soft-prune INT4 adaptation, which reaches 5.42-5.49x compression while reducing peak VRAM from 19.28 GB to about 11.7 GB with only modest runtime overhead. Second, the highest-fidelity compressed methods, especially PRQ_INT4 and QUAROT_KV_INT4, are not the best deployment choices because they preserve quality at severe runtime or memory cost. Third, nominal compression alone is not sufficient: several methods shrink KV storage but still exceed BF16 peak VRAM because the current integration reconstructs or retains large BF16 buffers during attention and refresh stages. The result is a benchmark harness, analysis workflow, and empirical map of which KV-cache ideas are practical today and which are promising research directions for better memory integration. Code, data products, and the presentation dashboard are available at https://github.com/suraj-ranganath/kv-quant-longhorizon/.
- Abstract(参考訳): 自己強制ビデオ生成は、短い水平ビデオモデルを拡張して、生成されたコンテンツをコンテキストとして繰り返し送り返すことで、ロールアウトを延長する。
キー値(KV)キャッシュはロールアウト期間とともに増大するので、長ビデオは生成品質が向上するだけでなく、メモリの挙動も大幅に向上する。
Wan2.1 ベースの自己強制スタック上での自己強制ビデオ生成のための KV-cache 圧縮に関する総合的研究について述べる。
本研究は,33種類の量子化とキャッシュポリシクス,610個のプロンプトレベルの観測,63個のベンチマークレベルのサマリーを2つの評価条件で比較した。
我々は,ピークVRAM,ランタイム,圧縮率,VBench画像品質,BF16参照忠実度(SSIM,LPIPS,PSNR),端末ドリフトを共同評価した。
3つの発見は堅牢である。
まず、FlowCacheにインスパイアされたSoft-prune INT4は5.42-5.49xの圧縮を実現し、ピークVRAMを19.28GBから11.7GBに減らした。
第2に、特にPRQ_INT4とQUIROT_KV_INT4は、厳しい実行時やメモリコストで品質を維持するため、最良のデプロイメント選択ではない。
いくつかのメソッドはKVストレージを縮小するが、現在の統合は注意とリフレッシュの段階で大きなBF16バッファを再構築または保持するため、BF16ピークVRAMを超えている。
その結果、ベンチマークハーネス、分析ワークフロー、KV-Cacheのアイデアが現在実用的であり、より優れたメモリ統合のための有望な研究方向である経験的マップが得られた。
コード、データ製品、プレゼンテーションダッシュボードはhttps://github.com/suraj-ranganath/kv-quant-longhorizon/で公開されている。
関連論文リスト
- PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference [46.18482046594169]
PackForcingは、単一のH200 GPU上で16 FPSでコヒーレントな2分832x480ビデオを生成する。
わずか4GBのバウンドKVキャッシュを実現し、ゼロショットまたは5秒のクリップでトレーニングされた24倍の時間(5秒から120秒)を効果的に動作させることができる。
論文 参考訳(メタデータ) (2026-03-26T17:59:05Z) - Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization [83.406036390582]
Quant VideoGen(QVG)は、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークである。
これにより、KVメモリを最大7.0倍に削減できる。
生成品質において、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T00:54:32Z) - Past- and Future-Informed KV Cache Policy with Salience Estimation in Autoregressive Video Diffusion [53.14908419375226]
既存のアプローチは一般的にKVキャッシュポリシーに依存しており、長期のビデオ生成におけるトークンの重要性の違いを無視している。
我々は,過去・未来型KVキャッシュポリシー(PaFu-KV)を提案する。
特にPaFu-KVは、双方向キャッシュ教師から抽出した軽量なサリエンス推定ヘッドを導入し、サリエンススコアを推定する。
このポリシーは、KVキャッシュ容量を小さくし、推論時にメモリフットプリントを減らすことで、より良い品質効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2026-01-29T15:55:29Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文 参考訳(メタデータ) (2025-03-20T14:01:56Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。