論文の概要: Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
- arxiv url: http://arxiv.org/abs/2512.05081v1
- Date: Thu, 04 Dec 2025 18:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.323511
- Title: Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
- Title(参考訳): ディープ・フォース:ディープシンクと参加圧縮によるトレーニング不要のロングビデオ生成
- Authors: Jung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim,
- Abstract要約: 映像拡散にStreamingLLMスタイルのアテンションシンクを鼻で適用すると、忠実度が低下し、動きが停滞することがわかった。
我々は、微調整なしでこれに対応する2つのトレーニング不要なメカニズムからなるDeep Forcingを紹介した。
以上の結果から,トレーニングフリーなKV-cache管理は,自動回帰ストリーミング長ビデオ生成のためのトレーニングベースアプローチと一致するか,あるいは超える可能性があることが示唆された。
- 参考スコア(独自算出の注目度): 36.99018442740971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in autoregressive video diffusion have enabled real-time frame streaming, yet existing solutions still suffer from temporal repetition, drift, and motion deceleration. We find that naively applying StreamingLLM-style attention sinks to video diffusion leads to fidelity degradation and motion stagnation. To overcome this, we introduce Deep Forcing, which consists of two training-free mechanisms that address this without any fine-tuning. Specifically, 1) Deep Sink dedicates half of the sliding window to persistent sink tokens and re-aligns their temporal RoPE phase to the current timeline, stabilizing global context during long rollouts. 2) Participative Compression performs importance-aware KV cache pruning that preserves only tokens actively participating in recent attention while safely discarding redundant and degraded history, minimizing error accumulation under out-of-distribution length generation. Together, these components enable over 12x extrapolation (e.g. 5s-trained to 60s+ generation) with better imaging quality than LongLive, better aesthetic quality than RollingForcing, almost maintaining overall consistency, and substantial gains in dynamic degree, all while maintaining real-time generation. Our results demonstrate that training-free KV-cache management can match or exceed training-based approaches for autoregressively streaming long-video generation.
- Abstract(参考訳): 近年の自己回帰ビデオ拡散により、リアルタイムのフレームストリーミングが可能になったが、既存のソリューションはまだ時間的反復、ドリフト、動きの減速に悩まされている。
映像拡散にStreamingLLMスタイルのアテンションシンクを鼻で適用すると、忠実度が低下し、動きが停滞することがわかった。
これを解決するために、微調整なしで対処する2つのトレーニング不要なメカニズムからなるDeep Forcingを導入する。
具体的には
1) Deep Sinkは、スライディングウィンドウの半分を永続的なシンクトークンに捧げ、時間的RoPEフェーズを現在のタイムラインに調整し、長期ロールアウト時のグローバルコンテキストを安定化します。
2) 参加者圧縮は、最近注目されているトークンのみを積極的に保存し、冗長で劣化した履歴を安全に破棄し、流通時間外発生時のエラー蓄積を最小限に抑える重要なKVキャッシュプルーニングを行う。
これらのコンポーネントは、LongLiveよりも画像品質が良く、RollingForcingよりも美的品質が良く、全体的な一貫性をほぼ維持でき、また、リアルタイム生成を維持しながら、動的に大幅に向上する。
以上の結果から,トレーニングフリーなKV-cache管理は,自動回帰ストリーミング長ビデオ生成のためのトレーニングベースアプローチと一致するか,あるいは超える可能性があることが示唆された。
関連論文リスト
- Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T06:37:53Z) - InfVSR: Breaking Length Limits of Generic Video Super-Resolution [40.30527504651693]
InfVSRは、長いシーケンスに対する自己回帰1ステップ拡散パラダイムである。
拡散過程を1ステップに効率よく蒸留し,パッチワイズ画素監視とクロスチャンク分布マッチングを行う。
提案手法は,長大なVSRのフロンティアを推し進め,セマンティック一貫性を向上して最先端の品質を実現し,既存の手法よりも最大58倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-10-01T14:21:45Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。