論文の概要: Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2506.04225v1
- Date: Wed, 04 Jun 2025 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.520554
- Title: Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
- Title(参考訳): ボイジャー:3D画像生成のための長距離・世界持続型ビデオ拡散
- Authors: Tianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo,
- Abstract要約: 本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
- 参考スコア(独自算出の注目度): 66.95956271144982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world applications like video gaming and virtual reality often demand the ability to model 3D scenes that users can explore along custom camera trajectories. While significant progress has been made in generating 3D objects from text or images, creating long-range, 3D-consistent, explorable 3D scenes remains a complex and challenging problem. In this work, we present Voyager, a novel video diffusion framework that generates world-consistent 3D point-cloud sequences from a single image with user-defined camera path. Unlike existing approaches, Voyager achieves end-to-end scene generation and reconstruction with inherent consistency across frames, eliminating the need for 3D reconstruction pipelines (e.g., structure-from-motion or multi-view stereo). Our method integrates three key components: 1) World-Consistent Video Diffusion: A unified architecture that jointly generates aligned RGB and depth video sequences, conditioned on existing world observation to ensure global coherence 2) Long-Range World Exploration: An efficient world cache with point culling and an auto-regressive inference with smooth video sampling for iterative scene extension with context-aware consistency, and 3) Scalable Data Engine: A video reconstruction pipeline that automates camera pose estimation and metric depth prediction for arbitrary videos, enabling large-scale, diverse training data curation without manual 3D annotations. Collectively, these designs result in a clear improvement over existing methods in visual quality and geometric accuracy, with versatile applications.
- Abstract(参考訳): ビデオゲームや仮想現実のような現実世界のアプリケーションは、ユーザーがカスタムカメラの軌道に沿って探索できる3Dシーンをモデル化する必要があることが多い。
テキストや画像から3Dオブジェクトを生成することには大きな進歩があったが、長距離で3D一貫性があり、探索可能な3Dシーンは複雑で難しい問題のままである。
本研究では,ユーザ定義カメラパスを持つ単一画像からワールド一貫性の3Dポイントクラウドシーケンスを生成する,新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間の固有の一貫性を備えたエンドツーエンドのシーン生成と再構築を実現し、3D再構築パイプライン(例えば、構造からの移動やマルチビューステレオ)の必要性を排除している。
我々の方法には3つの重要な要素が組み合わさっている。
1) 世界一貫性ビデオ拡散:グローバルコヒーレンスを確保するため,既存の世界観測を前提とした協調RGBと深度ビデオシーケンスを共同で生成する統一アーキテクチャ
2)Long-Range World Exploration:コンテキスト認識の一貫性を備えた反復的シーン拡張のためのポイントカリングとスムーズなビデオサンプリングによる自動回帰推論を備えた効率的なワールドキャッシュ。
3) スケーラブルデータエンジン: 任意のビデオのカメラポーズ推定とメートル法深度予測を自動化するビデオ再構成パイプライン。
これらの設計は、視覚的品質と幾何的精度において既存の手法よりも明らかに改善され、用途が多様である。
関連論文リスト
- WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - WonderVerse: Extendable 3D Scene Generation with Video Generative Models [28.002645364066005]
拡張可能な3Dシーンを生成するフレームワークであるWonderVerseを紹介する。
WonderVerseは、ビデオ生成基盤モデルに埋め込まれた強力な世界レベルの事前情報を活用する。
様々な3D再構成手法と互換性があり、効率的かつ高品質な生成を可能にする。
論文 参考訳(メタデータ) (2025-03-12T08:44:51Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos [76.07894127235058]
本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。
本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。
DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。
この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。
提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文 参考訳(メタデータ) (2023-03-23T17:59:40Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。