論文の概要: Focused Forcing: Content-Aware Per-Frame KV Selection for Efficient Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2605.18346v1
- Date: Mon, 18 May 2026 12:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.616638
- Title: Focused Forcing: Content-Aware Per-Frame KV Selection for Efficient Autoregressive Video Diffusion
- Title(参考訳): 集中強制: 自己回帰的ビデオ拡散のためのコンテンツ対応フレーム毎KV選択
- Authors: Peiliang Cai, Evelyn Zhang, Jiacheng Liu, Hao Lin, Ruiqi Zhang, Weile Mo, Yue Ma, Shikang Zheng, Jiehang Huang, Dongrui Liu, Linfeng Zhang,
- Abstract要約: textbfFocused Forcingは、生成フレームとヘッド次元の両方に沿ってキャッシュされた履歴に焦点を当てた、トレーニング不要なKV選択手法である。
生成されたフレームごとに、Focused Forcingは最も関連性があり、独特な歴史的フレームを保存する。
複数の自己回帰生成パラダイム全体で、Focused Forcingはトレーニングなしで最大$textbf1.48times$エンドツーエンドアクセラレーションを達成する。
- 参考スコア(独自算出の注目度): 25.555611454522126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in autoregressive video diffusion have enabled sequential and streaming video generation. However, long-horizon generation requires increasingly large KV caches, making efficient compression without sacrificing quality challenging. Existing methods mostly select historical frames based on attention scores, but their context decisions remain coarse. When multiple frames are generated in the same chunk, these methods often apply a shared history selection to the whole chunk, score historical frames solely by attention, and assign head-wise budgets either uniformly or by attention-pattern heuristics rather than explicit head-importance estimation. We show that frames within the same generated chunk can depend on distinct historical frames, that the same historical frame can receive different attention scores as its relative temporal distance to the current frames changes, and that masking different heads induces unequal generation degradation. Motivated by these findings, we propose \textbf{Focused Forcing}, a training-free KV selection method that focuses cached history along both generated-frame and head dimensions. For each generated frame, Focused Forcing preserves the most relevant and distinctive historical frames by combining attention scores with diversity scores of historical frames, while assigning larger budgets to heads with higher estimated importance. Across multiple autoregressive generation paradigms, Focused Forcing achieves up to $\textbf{1.48}\times$ end-to-end acceleration without training, while \textbf{improving visual quality and text alignment}. \textit{Our code will be released on GitHub.}
- Abstract(参考訳): 自動回帰ビデオ拡散の最近の進歩は、シーケンシャルおよびストリーミングビデオ生成を可能にしている。
しかし、長いホライゾン生成はKVキャッシュの増大を必要とし、品質を犠牲にすることなく効率的な圧縮を実現する。
既存の手法は、主に注目スコアに基づいて歴史的フレームを選択するが、その文脈決定はいまだに粗いままである。
複数のフレームが同じチャンク内で生成される場合、これらの手法は、チャンク全体に対して共有履歴の選択を適用し、注意のみによって履歴フレームをスコアし、明示的なヘッドインパタンス推定ではなく、一様または注目パターンのヒューリスティックスによって頭回りの予算を割り当てる。
同一のチャンク内のフレームは、異なる歴史的フレームに依存することができ、同じ歴史的フレームは、現在のフレームと相対的時間的距離が変化するにつれて異なる注意スコアを受け取ることができ、異なるヘッドのマスキングが不平等な生成劣化を引き起こすことを示す。
これらの知見に触発されて、生成フレームとヘッド次元の両方に沿ってキャッシュされた履歴に焦点を当てたトレーニング不要なKV選択法である「textbf{Focused Forcing}」を提案する。
生成されたフレームごとに、Focused Forcingは、注目スコアと過去のフレームの多様性スコアを組み合わせることで、最も関連性が高く、独特な歴史的フレームを保持します。
複数の自己回帰生成パラダイム全体で、Focused Forcingはトレーニングなしで最大$\textbf{1.48}\times$ end-to-endAccelerationを達成する。
\textit{Our codeはGitHubでリリースされる。
※
関連論文リスト
- Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation [48.476317015122625]
Echo-Forcingは、インタラクティブなロングビデオ生成のためのトレーニング不要のシーンメモリフレームワークである。
キャッシュのバウンダリでスムーズなトランジション、ハードカット、長距離シーンリコールをサポートする。
論文 参考訳(メタデータ) (2026-05-15T14:33:09Z) - Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation [33.32047364623734]
Memorize-and-Generate(MAG)は、メモリ圧縮とフレーム生成を別々のタスクに分離するフレームワークである。
我々は、記憶モデルを訓練して、履歴情報をコンパクトなKVキャッシュに圧縮し、この圧縮された表現を用いて、後続のフレームを合成する別個のジェネレータモデルを訓練する。
実験により、MAGは標準的なビデオ生成ベンチマーク上での競争性能を維持しながら、優れた歴史的一貫性を実現することが示された。
論文 参考訳(メタデータ) (2025-12-21T14:02:53Z) - MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives [54.07515675393396]
既存のソリューションは、事前に定義された戦略で過去のフレームを圧縮することでメモリを維持する。
我々はこの問題に対処するためにMemFlowを提案する。
MemFlowは、無視可能な負担を伴う、卓越した長いコンテキスト整合性を実現する。
論文 参考訳(メタデータ) (2025-12-16T18:59:59Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models [63.99949971803903]
ビデオ生成のための次フレーム(または次フレーム)予測モデルをトレーニングするためのニューラルネットワーク構造であるFramePackを提案する。
FramePackは入力フレームコンテキストをフレーム単位の重要度で圧縮し、より多くのフレームを固定されたコンテキスト長内にエンコードする。
既存のビデオ拡散モデルをFramePackで微調整できることを示し、異なるパッキングスケジュールの違いを分析する。
論文 参考訳(メタデータ) (2025-04-17T04:02:31Z) - History-Guided Video Diffusion [61.03681839276652]
DFoTによって一意に実現されたガイダンス手法であるHistory Guidanceを紹介する。
より先進的な方法、時間と周波数をまたいだ履歴ガイダンスは、運動力学をさらに強化する。
プロジェクトウェブサイト: https://boyuan.space/history-guidance.com
論文 参考訳(メタデータ) (2025-02-10T18:44:25Z) - Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior [13.595032265551184]
ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。
本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。
これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
論文 参考訳(メタデータ) (2024-06-07T12:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。