論文の概要: Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
- arxiv url: http://arxiv.org/abs/2509.25161v1
- Date: Mon, 29 Sep 2025 17:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.894019
- Title: Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
- Title(参考訳): ローリング・フォース:自動回帰式長距離ビデオ拡散をリアルタイムで行う
- Authors: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu,
- Abstract要約: Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 86.40480237741609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming video generation, as one fundamental component in interactive world models and neural game engines, aims to generate high-quality, low-latency, and temporally coherent long video streams. However, most existing work suffers from severe error accumulation that often significantly degrades the generated stream videos over long horizons. We design Rolling Forcing, a novel video generation technique that enables streaming long videos with minimal error accumulation. Rolling Forcing comes with three novel designs. First, instead of iteratively sampling individual frames, which accelerates error propagation, we design a joint denoising scheme that simultaneously denoises multiple frames with progressively increasing noise levels. This design relaxes the strict causality across adjacent frames, effectively suppressing error growth. Second, we introduce the attention sink mechanism into the long-horizon stream video generation task, which allows the model to keep key value states of initial frames as a global context anchor and thereby enhances long-term global consistency. Third, we design an efficient training algorithm that enables few-step distillation over largely extended denoising windows. This algorithm operates on non-overlapping windows and mitigates exposure bias conditioned on self-generated histories. Extensive experiments show that Rolling Forcing enables real-time streaming generation of multi-minute videos on a single GPU, with substantially reduced error accumulation.
- Abstract(参考訳): インタラクティブな世界モデルとニューラルゲームエンジンの基本的なコンポーネントであるストリーミングビデオ生成は、高品質で低レイテンシで時間的に整合した長いビデオストリームを生成することを目的としている。
しかし、既存の作業のほとんどは、長い地平線上で生成されたストリームビデオが著しく劣化する深刻なエラーの蓄積に悩まされている。
エラーを最小限に抑えた長編ビデオのストリーミングを可能にする新しいビデオ生成技術であるRolling Forcingを設計する。
Rolling Forcingには3つの新しいデザインがある。
まず、誤りの伝播を加速する個別のフレームを反復的にサンプリングする代わりに、複数のフレームを同時にノイズレベルを漸進的に増加させる共同認知スキームを設計する。
この設計は、隣接するフレーム間の厳密な因果関係を緩和し、エラーの増大を効果的に抑制する。
第2に、アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し、初期フレームのキー値状態をグローバルコンテキストアンカーとして保持し、長期的グローバル一貫性を高める。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
このアルゴリズムは、重複しないウィンドウ上で動作し、自己生成履歴に規定された露出バイアスを緩和する。
大規模な実験により、ローリングフォースは1つのGPU上でリアルタイムのマルチ分間ビデオのストリーミング生成を可能にし、エラーの蓄積を大幅に削減した。
関連論文リスト
- FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [24.48220892418698]
FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。
FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
論文 参考訳(メタデータ) (2025-06-30T18:11:21Z) - SplatVoxel: History-Aware Novel View Streaming without Temporal Training [29.759664150610362]
スパースビュー映像からの新たなビューストリーミングの問題について検討する。
既存のビュー合成手法は、時間的コヒーレンスと視覚的忠実さに苦慮している。
本稿では,ハイブリッド型スプラ・ボクセルフィードフォワードシーン再構築手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T20:00:47Z) - Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion [22.988212617368095]
本稿では,長時間ビデオ生成のためのチューニング不要なGLC-Diffusionを提案する。
Global-Local Collaborative Denoisingを確立することで、長いビデオDenoisingプロセスをモデル化する。
また,ビデオモーション・コンシスタンス・リファインメント(VMCR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-01-08T05:49:39Z) - RAIN: Real-time Animation of Infinite Video Stream [52.97171098038888]
RAINは、低レイテンシで、無限のビデオストリームをリアルタイムでアニメーションできるパイプラインソリューションである。
RAINは、より短いレイテンシと高速な速度でビデオフレームを生成すると同時に、拡張されたビデオストリームに対する長距離の注意を維持する。
RAINは、競合他社よりもはるかに優れた品質、正確性、一貫性で、リアルタイムにキャラクタをアニメーションすることができる。
論文 参考訳(メタデータ) (2024-12-27T07:13:15Z) - Progressive Autoregressive Video Diffusion Models [24.97019070991881]
本稿では,映像拡散モデルにおける雑音レベルの仮定を再考することにより,より自然な自己回帰長ビデオ生成法を提案する。
私たちのキーとなるアイデアは、フレームごとにフレームを割り当てることです。
プログレッシブノイズスケジュールを備えたビデオ拡散モデルでは,ベースラインに比べて忠実度が大幅に向上した長いビデオを自動回帰的に生成することができる。
論文 参考訳(メタデータ) (2024-10-10T17:36:15Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。