論文の概要: LIVE: Long-horizon Interactive Video World Modeling
- arxiv url: http://arxiv.org/abs/2602.03747v1
- Date: Tue, 03 Feb 2026 17:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.593368
- Title: LIVE: Long-horizon Interactive Video World Modeling
- Title(参考訳): LIVE:Long-Horizon Interactive Video World Modeling
- Authors: Junchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang,
- Abstract要約: Long-Horizon Interactive Video world modElは、新しいサイクル一貫性の目的を通じて境界付きエラー蓄積を実行する。
Liveはロングホライゾンベンチマークで最先端のパフォーマンスを達成し、ロールアウト期間のトレーニングを超えて、安定した高品質のビデオを生成する。
- 参考スコア(独自算出の注目度): 39.52605866460851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.
- Abstract(参考訳): 自己回帰ビデオワールドモデルは、アクションに条件付けられた将来の視覚的観察を予測する。
短い地平線では有効であるが、これらのモデルは時間とともに小さな予測誤差が蓄積されるため、長い水平線生成に苦慮することが多い。
事前の方法は、事前訓練された教師モデルとシーケンスレベルの分布マッチングを導入することでこれを緩和する。
そこで本研究では,LIVE(Long-Horizon Interactive Video world modEl)を提案する。
特に、LIVEはまず、接地構造フレームから前方ロールアウトを行い、その後、初期状態の再構築に逆生成プロセスを適用する。
拡散損失はその後、再構成された端末状態に基づいて計算され、長水平誤差伝搬に明示的な制約を与える。
さらに、異なるアプローチを包含する統一的な視点を提供し、トレーニングを安定させるためのプログレッシブトレーニングカリキュラムを導入する。
実験により、LIVEは長期のベンチマークで最先端のパフォーマンスを達成し、ロールアウト期間のトレーニング以上の安定した高品質なビデオを生成することが示された。
関連論文リスト
- End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models [50.986189632485285]
モデル自身のロールアウトから補正軌道を構築する自己教師型スキームであるバックワードアグリゲーション(BAgger)を導入する。
数段階の蒸留と分配整合損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目的を持つ列車である。
因果拡散変換器でBAggerをインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価する。
論文 参考訳(メタデータ) (2025-12-12T23:02:02Z) - Self-Forcing++: Towards Minute-Scale High-Quality Video Generation [50.945885467651216]
拡散モデルは画像とビデオ生成に革命をもたらし、前例のない視覚的品質を達成した。
最近の研究は、主に短水平双方向教師の蒸留によって、長時間のビデオ生成のための自己回帰的定式化を探求している。
長ビデオ教師の監督や長ビデオデータセットの再訓練を必要とせずに、長ビデオ生成における品質劣化を軽減するための、単純かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-02T17:55:42Z) - STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [42.73124501421074]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。