論文の概要: Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity
- arxiv url: http://arxiv.org/abs/2605.14487v1
- Date: Thu, 14 May 2026 07:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.686009
- Title: Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity
- Title(参考訳): ヘッドフォース:ヘッドヘテロジニティによる長時間の自己回帰ビデオ生成
- Authors: Jiahao Tian, Yiwei Wang, Gang Yu, Chi Zhang,
- Abstract要約: 自己回帰ビデオ拡散モデルはリアルタイム合成をサポートするが、長い地平線上でのエラー蓄積とコンテキスト損失に悩まされる。
我々は、各ヘッドタイプにKVキャッシュ戦略を割り当てる訓練不要のフレームワークであるHead Forcingを提案する。
追加のトレーニングなしでは、Head Forcingは生成を5秒から分単位で延長し、マルチプロンプトのインタラクティブな合成をサポートし、既存のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 21.347969441374506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models support real-time synthesis but suffer from error accumulation and context loss over long horizons. We discover that attention heads in AR video diffusion transformers serve functionally distinct roles as local heads for detail refinement, anchor heads for structural stabilization, and memory heads for long-range context aggregation, yet existing methods treat them uniformly, leading to suboptimal KV cache allocation. We propose Head Forcing, a training-free framework that assigns each head type a tailored KV cache strategy: local and anchor heads retain only essential tokens, while memory heads employ a hierarchical memory system with dynamic episodic updates for long-range consistency. A head-wise RoPE re-encoding scheme further ensures positional encodings remain within the pretrained range. Without additional training, Head Forcing extends generation from 5 seconds to minute-level duration, supports multi-prompt interactive synthesis, and consistently outperforms existing baselines. Project Page: https://jiahaotian-sjtu.github.io/headforcing.github.io/.
- Abstract(参考訳): 自己回帰ビデオ拡散モデルはリアルタイム合成をサポートするが、長い地平線上でのエラー蓄積とコンテキスト損失に悩まされる。
我々は、ARビデオ拡散トランスフォーマーの注目ヘッドが、細部の改良のためのローカルヘッド、構造安定化のためのアンカーヘッド、長期コンテキストアグリゲーションのためのメモリヘッドとして機能的に異なる役割を担っていることを発見した。
ローカルヘッドとアンカーヘッドは必須トークンのみを保持する一方、メモリヘッドは動的エピソード更新と長距離整合性を持つ階層型メモリシステムを用いる。
ヘッドワイドのRoPE再符号化方式により、予め訓練された範囲内に位置符号化が残ることが保証される。
追加のトレーニングなしでは、Head Forcingは生成を5秒から分単位で延長し、マルチプロンプトのインタラクティブな合成をサポートし、既存のベースラインを一貫して上回る。
Project Page: https://jiahaotian-sjtu.github.io/headforcing.github.io/
関連論文リスト
- Pyramid Forcing: Head-Aware Pyramid KV Cache Policy for High-Quality Long Video Generation [14.413680197991356]
Pyramid ForcingはヘッドアウェアなKVCacheフレームワークで、ヘッドタイプをオフラインで識別し、振る舞い固有のキャッシュポリシーを割り当てる。
実験により、ピラミド強制はVBench-Longの長軸生成品質を一貫して改善することが示された。
論文 参考訳(メタデータ) (2026-05-13T07:23:02Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference [14.17979669446161]
トレーニング不要な動的圧縮フレームワークであるHeteroCacheを提案する。
We show that HeteroCache achieves state-of-the-art performance on multiple long-context benchmarks and accelerates decoding by up $3times$ in the original model in the 224K context。
論文 参考訳(メタデータ) (2026-01-20T07:35:06Z) - Lethe: Layer- and Time-Adaptive KV Cache Pruning for Reasoning-Intensive LLM Serving [11.750209684686707]
大きな言語モデル(LLM)による生成的推論は、しばしば長い復号シーケンスを含む。
本稿では,動的KVキャッシュ管理フレームワークLetheを提案する。
Letheは様々なモデルやタスク間で効率と生成品質のバランスを良好に保ち、スループットを最大2.56倍に向上させる。
論文 参考訳(メタデータ) (2025-11-08T14:52:43Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。