論文の概要: LongVie 2: Multimodal Controllable Ultra-Long Video World Model
- arxiv url: http://arxiv.org/abs/2512.13604v1
- Date: Mon, 15 Dec 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.789938
- Title: LongVie 2: Multimodal Controllable Ultra-Long Video World Model
- Title(参考訳): LongVie 2:マルチモーダル制御可能なウルトラロングビデオワールドモデル
- Authors: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu,
- Abstract要約: LongVie 2はエンドツーエンドの自動回帰フレームワークで、3段階でトレーニングされている。
LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 94.85126937285527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.
- Abstract(参考訳): 事前訓練されたビデオ生成システムによるビデオワールドモデルの構築は、一般的な時空間インテリジェンスに向けた重要なステップである。
世界モデルは、コントロール可能性、長期的な視覚的品質、時間的一貫性の3つの重要な特性を持つべきである。
この目的のために、我々は、先進的なアプローチを第一に、制御性を向上し、その後、長期、高品質な世代に向けて拡張する。
本稿では,(1)密集した疎密な制御信号を統合し,暗黙的な世界レベルの監視と制御性の向上を実現するマルチモーダルガイダンス,(2)入力フレームの劣化を意識したトレーニング,高い視覚的品質を維持するためのトレーニングと長期的推論のギャップを埋めること,(3)隣接クリップ間のコンテキスト情報を整合させて時間的整合性を確保するヒストリーコンテキストガイダンス,の3段階からなるエンドツーエンドの自動回帰フレームワークであるLongVie 2を提案する。
さらに、LongVGenBenchは、様々な現実世界と合成環境をカバーする100の高解像度1分間のビデオからなる総合的なベンチマークである。
広汎な実験により、LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端のパフォーマンスを達成し、最大5分間の連続ビデオ生成をサポートし、統合されたビデオワールドモデリングに向けた大きな一歩を踏み出した。
関連論文リスト
- KlingAvatar 2.0 Technical Report [43.949604396366425]
本モデルは,マルチモーダル・アライメントの長めの高解像度ビデオ生成における課題を効果的に解決する。
視覚的明瞭度の向上、正確な唇同期によるリアルな唇歯のレンダリング、強力なアイデンティティ保存、そしてコヒーレントなマルチモーダル・インストラクションを提供する。
論文 参考訳(メタデータ) (2025-12-15T13:30:51Z) - Endless World: Real-Time 3D-Aware Long Video Generation [57.411689597435334]
Endless Worldは、無限の3D一貫性のあるビデオ生成のためのリアルタイムフレームワークである。
本稿では,新たに生成されたコンテンツを既存のビデオフレームと整合させる条件付き自己回帰学習手法を提案する。
我々の3Dインジェクション機構は、拡張シーケンスを通して物理的妥当性と幾何的整合性を強制する。
論文 参考訳(メタデータ) (2025-12-13T19:06:12Z) - WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception [40.96323549891244]
現在の手法は主にRGB信号に依存しており、長い時間にわたってオブジェクト構造や動きに誤差が蓄積される。
我々は,RGBフレームと知覚条件を協調的にモデル化する,長期ビデオ生成のための堅牢なフレームワークであるWorldWeaverを紹介した。
まず、統合表現から知覚条件と色情報を共同で予測することにより、時間的一貫性と動きのダイナミクスを著しく向上させる。
論文 参考訳(メタデータ) (2025-08-21T16:57:33Z) - LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation [90.02820796070135]
LongVieは、制御可能なロングビデオ生成のためのエンドツーエンドの自動回帰フレームワークである。
LongVieは、長距離制御性、一貫性、品質において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-05T17:59:58Z) - Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。