論文の概要: Past- and Future-Informed KV Cache Policy with Salience Estimation in Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2601.21896v3
- Date: Wed, 04 Feb 2026 13:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.602341
- Title: Past- and Future-Informed KV Cache Policy with Salience Estimation in Autoregressive Video Diffusion
- Title(参考訳): 自己回帰ビデオ拡散におけるサリエンス推定を用いた過去・未来インフォームドKVキャッシュポリシ
- Authors: Hanmo Chen, Chenghao Xu, Xu Yang, Xuan Chen, Cheng Deng,
- Abstract要約: 既存のアプローチは一般的にKVキャッシュポリシーに依存しており、長期のビデオ生成におけるトークンの重要性の違いを無視している。
我々は,過去・未来型KVキャッシュポリシー(PaFu-KV)を提案する。
特にPaFu-KVは、双方向キャッシュ教師から抽出した軽量なサリエンス推定ヘッドを導入し、サリエンススコアを推定する。
このポリシーは、KVキャッシュ容量を小さくし、推論時にメモリフットプリントを減らすことで、より良い品質効率のトレードオフをもたらす。
- 参考スコア(独自算出の注目度): 53.14908419375226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation is pivotal to digital media creation, and recent advances in autoregressive video generation have markedly enhanced the efficiency of real-time video synthesis. However, existing approaches generally rely on heuristic KV Cache policies, which ignore differences in token importance in long-term video generation. This leads to the loss of critical spatiotemporal information and the accumulation of redundant, invalid cache, thereby degrading video generation quality and efficiency. To address this limitation, we first observe that token contributions to video generation are highly time-heterogeneous and accordingly propose a novel Past- and Future-Informed KV Cache Policy (PaFu-KV). Specifically, PaFu-KV introduces a lightweight Salience Estimation Head distilled from a bidirectional teacher to estimate salience scores, allowing the KV cache to retain informative tokens while discarding less relevant ones. This policy yields a better quality-efficiency trade-off by shrinking KV cache capacity and reducing memory footprint at inference time. Extensive experiments on benchmarks demonstrate that our method preserves high-fidelity video generation quality while enables accelerated inference, thereby enabling more efficient long-horizon video generation. Our code will be released upon paper acceptance.
- Abstract(参考訳): 映像生成はデジタルメディア作成において重要な役割を担い、近年の自己回帰ビデオ生成の進歩によりリアルタイムビデオ合成の効率が著しく向上した。
しかし、既存のアプローチは一般的に、長期のビデオ生成におけるトークンの重要性の違いを無視するヒューリスティックなKVキャッシュポリシーに依存している。
これにより、臨界時空間情報が失われ、冗長で無効なキャッシュが蓄積され、ビデオ生成の品質と効率が低下する。
この制限に対処するために、私たちはまず、ビデオ生成に対するトークンの寄与が非常に時間的に不均一であることを観察し、それに応じて、新しいパス・アンド・フューチャー・インフォームドKVキャッシュポリシー(PaFu-KV)を提案する。
特にPaFu-KVは、双方向の教師から抽出した軽量なSalience Estimation Headを導入して、Salienceスコアを推定する。
このポリシーは、KVキャッシュ容量を小さくし、推論時にメモリフットプリントを減らすことで、より良い品質効率のトレードオフをもたらす。
ベンチマーク実験により,提案手法は高精細度映像の画質を保ちながら,高速な推論が可能であり,より効率的な長距離映像生成を可能にすることを示した。
私たちのコードは受理後に解放されます。
関連論文リスト
- PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression [95.59657871147846]
我々は,ビデオLLMと高度なKVキャッシュの検索と圧縮をシームレスに行うフレームワークである textbfStreamKV を提案する。
公開StreamingVQAベンチマークの実験では、StreamKVが既存のオンラインビデオ-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2025-11-10T16:25:03Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。