論文の概要: Endless World: Real-Time 3D-Aware Long Video Generation
- arxiv url: http://arxiv.org/abs/2512.12430v1
- Date: Sat, 13 Dec 2025 19:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.25574
- Title: Endless World: Real-Time 3D-Aware Long Video Generation
- Title(参考訳): エンドレスワールド:リアルタイム3D対応長編ビデオ
- Authors: Ke Zhang, Yiqun Mei, Jiacong Xu, Vishal M. Patel,
- Abstract要約: Endless Worldは、無限の3D一貫性のあるビデオ生成のためのリアルタイムフレームワークである。
本稿では,新たに生成されたコンテンツを既存のビデオフレームと整合させる条件付き自己回帰学習手法を提案する。
我々の3Dインジェクション機構は、拡張シーケンスを通して物理的妥当性と幾何的整合性を強制する。
- 参考スコア(独自算出の注目度): 57.411689597435334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Producing long, coherent video sequences with stable 3D structure remains a major challenge, particularly in streaming scenarios. Motivated by this, we introduce Endless World, a real-time framework for infinite, 3D-consistent video generation.To support infinite video generation, we introduce a conditional autoregressive training strategy that aligns newly generated content with existing video frames. This design preserves long-range dependencies while remaining computationally efficient, enabling real-time inference on a single GPU without additional training overhead.Moreover, our Endless World integrates global 3D-aware attention to provide continuous geometric guidance across time. Our 3D injection mechanism enforces physical plausibility and geometric consistency throughout extended sequences, addressing key challenges in long-horizon and dynamic scene synthesis.Extensive experiments demonstrate that Endless World produces long, stable, and visually coherent videos, achieving competitive or superior performance to existing methods in both visual fidelity and spatial consistency. Our project has been available on https://bwgzk-keke.github.io/EndlessWorld/.
- Abstract(参考訳): 安定した3D構造を持つ長いコヒーレントなビデオシーケンスを生成することは、特にストリーミングシナリオにおいて大きな課題である。
そこで我々は,無限ビデオ生成を支援するために,新たに生成されたコンテンツを既存のビデオフレームに整合させる条件付き自己回帰学習戦略を導入する。
この設計は、計算効率を保ちながら長距離依存を保ち、トレーニングのオーバーヘッドを伴わずに1つのGPU上でリアルタイムの推論を可能にし、また、私たちのEndless Worldはグローバルな3D認識の注意を統合して、時間をかけて連続的な幾何学的ガイダンスを提供する。
我々の3Dインジェクション機構は、長い水平・動的シーン合成における鍵となる課題に対処しながら、拡張シーケンスを通して物理的可視性と幾何的整合性を強制し、エンドレスワールドは、視覚的忠実度と空間的整合性の両方において、既存の方法と競合的あるいは優れた性能を達成し、長い、安定した、そして視覚的に一貫性のあるビデオを生成することを実証した。
私たちのプロジェクトはhttps://bwgzk-keke.github.io/EndlessWorld/で公開されています。
関連論文リスト
- StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation [108.97993219426509]
StereoWorldは、高忠実なモノクル・ツー・ステレオビデオ生成のためのエンドツーエンドフレームワークである。
我々のフレームワークは、幾何学的に認識された正規化で生成を明示的に監視しながら、単眼ビデオ入力のモデルを規定する。
大規模なトレーニングと評価を可能にするため,高精細度ステレオビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-12-10T06:50:16Z) - FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction [13.098585993121722]
本稿では,FantasyWorldについて紹介する。FantasyWorldは,凍結動画基盤モデルをトレーニング可能な幾何学的ブランチで拡張する幾何学的拡張フレームワークである。
提案手法は,3次元予測を正規化するためのガイド映像生成とビデオ優先の手法であるクロスブランチ・インフォメーションを導入する。
実験により、FantasyWorldは映像の想像力と3D知覚を効果的に橋渡しし、近年の多視点コヒーレンスとスタイル整合性において、幾何学的に一貫性のあるベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-25T22:24:23Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - Seeing World Dynamics in a Nutshell [132.79736435144403]
NutWorldはモノクロ動画をダイナミックな3D表現に変換するフレームワークである。
我々は,NutWorldがリアルタイムにダウンストリームアプリケーションを実現しつつ,高忠実度ビデオ再構成品質を実現することを実証した。
論文 参考訳(メタデータ) (2025-02-05T18:59:52Z) - World-Consistent Video-to-Video Synthesis [35.617437747886484]
レンダリング中に過去のすべてのフレームを効率的に活用する新しいvid2vidフレームワークを提案する。
これは、これまでレンダリングされた3D世界を、現在のフレームの物理的に基底化された推定に凝縮することで達成される。
誘導画像に格納された情報を活用する新しいニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-16T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。