論文の概要: Pyramid Forcing: Head-Aware Pyramid KV Cache Policy for High-Quality Long Video Generation
- arxiv url: http://arxiv.org/abs/2605.13111v1
- Date: Wed, 13 May 2026 07:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.874981
- Title: Pyramid Forcing: Head-Aware Pyramid KV Cache Policy for High-Quality Long Video Generation
- Title(参考訳): ピラミッド強制:高画質ビデオ生成のためのヘッドアウェアピラミッドKVキャッシュポリシー
- Authors: Jiayu Chen, Junbei Tang, Wenbiao Zhao, Maoliang Li, Jiayi Luo, Zihao Zheng, Jiawei Yang, Guojie Luo, Xiang Chen,
- Abstract要約: Pyramid ForcingはヘッドアウェアなKVCacheフレームワークで、ヘッドタイプをオフラインで識別し、振る舞い固有のキャッシュポリシーを割り当てる。
実験により、ピラミド強制はVBench-Longの長軸生成品質を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 14.413680197991356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video generation enables streaming and open-ended long video synthesis, but still suffers from long-term degradation caused by accumulated errors. Existing KVCache strategies usually apply unified historical-frame retention, implicitly assuming homogeneous historical dependencies across attention heads. We revisit historical-frame attention and reveal three distinct head types: Anchor Heads require broad long-range context, Wave Heads exhibit periodic temporal dependencies, and Veil Heads focus on initial and adjacent frames. Based on this finding, we propose Pyramid Forcing, a head-aware pyramidal KVCache framework that identifies head types offline, assigns behavior-specific cache policies, and supports heterogeneous cache lengths via efficient ragged-cache attention. Experiments on Self Forcing and Causal Forcing show that Pyramid Forcing consistently improves long-horizon generation quality on VBench-Long, increasing the 60-second Self Forcing score from 77.87 to 81.21 while enhancing motion dynamics, visual fidelity, and semantic consistency. Project: https://if-lab-pku.github.io/Pyramid-Forcing/.
- Abstract(参考訳): 自動回帰ビデオ生成は、ストリーミングとオープンエンドの長いビデオ合成を可能にするが、それでも累積エラーによる長期的な劣化に悩まされている。
既存のKVCache戦略は、通常、注目ヘッド間の均一な歴史的依存関係を暗黙的に仮定して、統一された歴史的フレーム保持を適用する。
アンカーヘッドは広範囲にわたるコンテキストを必要とし、ウェーブヘッドは周期的な時間的依存を示し、ヴェイユヘッドは初期および隣接フレームに焦点を当てる。
この発見に基づいて、ヘッドタイプをオフラインで識別し、振る舞い固有のキャッシュポリシーを割り当て、効率的なラグ・キャッシュアテンションを通じて異種キャッシュ長をサポートする、ヘッドアウェアなピラミッド型KVCacheフレームワークであるPraamid Forcingを提案する。
自己強制力と因果強制力の実験により、ピラミド強制力はVBench-Longの長軸生成品質を継続的に改善し、60秒の自己強制力スコアを77.87から81.21に引き上げ、動きのダイナミクス、視覚的忠実性、セマンティック一貫性を高めた。
プロジェクト:https://if-lab-pku.github.io/Pyramid-Forcing/。
関連論文リスト
- LongStream: Long-Sequence Streaming Autoregressive Visual Geometry [18.46781332515933]
LongStreamは、計量スケールのシーン再構成のための新しいゲージ分離型ストリーミングビジュアルジオメトリモデルである。
長距離外挿を定距離局所的なタスクに再構成する。
安定して18FPSで、キロメートルスケールのシークエンスで安定してメートルスケールの再構築を行う。
論文 参考訳(メタデータ) (2026-02-13T18:30:51Z) - Flow caching for autoregressive video generation [72.10021661412364]
自動回帰ビデオ生成に特化して設計された,最初のキャッシュフレームワークであるFlowCacheを紹介する。
本手法は,MAGI-1では2.38倍,SkyReels-V2では6.7倍,品質劣化は無視できない。
論文 参考訳(メタデータ) (2026-02-11T13:11:04Z) - Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention [37.91838955436801]
自動回帰ビデオ拡散モデルは、ストリーミング生成、ロングフォーム合成への扉を開くこと、ビデオワールドモデル、インタラクティブなニューラルゲームエンジンを可能にする。
生成が進むにつれて、KVキャッシュが増加し、レイテンシの増加とGPUメモリのエスカレーションが生じる。
我々は、自己回帰拡散のための統合されたトレーニングなしアテンションフレームワークを提案する: TempCacheは、時間的対応によるKVキャッシュをバウンドキャッシュ成長に圧縮し、AnnCAは、高速近傍マッチングを用いてフレーム関連プロンプトを選択することで、クロスアテンションを加速し、AnnSAは各クエリを制限して自己アテンションを拡大する。
論文 参考訳(メタデータ) (2026-02-02T08:31:21Z) - Efficient Autoregressive Video Diffusion with Dummy Head [35.72735205078644]
本研究では,異なるヘッド間のコンテキストアクセシビリティを制御するDummy Forcingを提案する。
具体的には、提案したヘテロジニアスメモリ割り当てにより、動的ヘッドプログラミングを伴う頭部コンテキスト冗長性が低減される。
追加のトレーニングなしでは、Dummy Forcingはベースライン上で最大2.0倍のスピードアップを実現し、ビデオ生成を0.5%以下の品質低下で24.3 FPSでサポートしています。
論文 参考訳(メタデータ) (2026-01-28T11:20:43Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference [14.17979669446161]
トレーニング不要な動的圧縮フレームワークであるHeteroCacheを提案する。
We show that HeteroCache achieves state-of-the-art performance on multiple long-context benchmarks and accelerates decoding by up $3times$ in the original model in the 224K context。
論文 参考訳(メタデータ) (2026-01-20T07:35:06Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation [75.71558917038838]
Lookahead Anchoringは、時間的自己回帰生成におけるアイデンティティドリフトを防ぐ。
固定境界から方向ビーコンに変形する。
セルフキーフレーミングも可能で、参照イメージがルックアヘッドターゲットとして機能する。
論文 参考訳(メタデータ) (2025-10-27T17:50:19Z) - LongLive: Real-time Interactive Long Video Generation [68.45945318075432]
LongLiveはリアルタイムおよびインタラクティブなロングビデオ生成のためのフレームレベルの自動回帰フレームワークである。
LongLiveは1つのNVIDIA H100上で20.7 FPSを持続し、短いビデオと長いビデオの両方でVBenchで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-26T17:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。