論文の概要: WorldExplorer: Towards Generating Fully Navigable 3D Scenes
- arxiv url: http://arxiv.org/abs/2506.01799v1
- Date: Mon, 02 Jun 2025 15:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.589983
- Title: WorldExplorer: Towards Generating Fully Navigable 3D Scenes
- Title(参考訳): WorldExplorer:完全なナビゲーション可能な3Dシーンの制作を目指す
- Authors: Manuel-Andreas Schneider, Lukas Höllein, Matthias Nießner,
- Abstract要約: WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
- 参考スコア(独自算出の注目度): 49.21733308718443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D worlds from text is a highly anticipated goal in computer vision. Existing works are limited by the degree of exploration they allow inside of a scene, i.e., produce streched-out and noisy artifacts when moving beyond central or panoramic perspectives. To this end, we propose WorldExplorer, a novel method based on autoregressive video trajectory generation, which builds fully navigable 3D scenes with consistent visual quality across a wide range of viewpoints. We initialize our scenes by creating multi-view consistent images corresponding to a 360 degree panorama. Then, we expand it by leveraging video diffusion models in an iterative scene generation pipeline. Concretely, we generate multiple videos along short, pre-defined trajectories, that explore the scene in depth, including motion around objects. Our novel scene memory conditions each video on the most relevant prior views, while a collision-detection mechanism prevents degenerate results, like moving into objects. Finally, we fuse all generated views into a unified 3D representation via 3D Gaussian Splatting optimization. Compared to prior approaches, WorldExplorer produces high-quality scenes that remain stable under large camera motion, enabling for the first time realistic and unrestricted exploration. We believe this marks a significant step toward generating immersive and truly explorable virtual 3D environments.
- Abstract(参考訳): テキストから3D世界を生成することは、コンピュータビジョンにおいて非常に期待された目標である。
既存の作品は、シーンの内部で許容される探索の程度、すなわち、中央あるいはパノラマ的な視点を超えて移動するときに、ストレートアウトでノイズの多いアーティファクトを生産することによって制限される。
そこで本研究では,自動回帰ビデオトラジェクトリ生成に基づく新しい手法であるWorldExplorerを提案する。
我々は360度パノラマに対応する多視点一貫した画像を作成することで、シーンを初期化する。
そして、繰り返しシーン生成パイプラインでビデオ拡散モデルを活用することで拡張する。
具体的には、事前に定義された短い軌道に沿って複数のビデオを生成し、物体のまわりの動きを含む奥行きを探索する。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされているのに対して、衝突検出機構は、オブジェクトへの移動のような退化を防いでいる。
最後に、生成したすべてのビューを3次元ガウススプラッティング最適化により統一された3次元表現に融合する。
従来のアプローチと比較して、WorldExplorerは、大きなカメラモーションの下で安定した高品質なシーンを制作し、初めて現実的で制約のない探索を可能にした。
これは没入型で真に探索可能な仮想3D環境を生み出すための重要なステップだと考えています。
関連論文リスト
- WorldPrompter: Traversable Text-to-Scene Generation [18.405299478122693]
テキストプロンプトから可逆3Dシーンを合成するための新しい生成パイプラインであるWorldPrompterを紹介する。
WorldPrompterには条件付き360度パノラマビデオジェネレータが組み込まれており、仮想環境を歩いたり捉えたりする人をシミュレートする128フレームのビデオを生成することができる。
得られたビデオは、高速フィードフォワード3Dコンストラクタによってガウススプラッターとして再構成され、3Dシーン内で真の歩行可能な体験を可能にする。
論文 参考訳(メタデータ) (2025-04-02T18:04:32Z) - From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting [53.32467009064287]
テキスト駆動型3D一貫性シーン生成モデルSceneDreamer360を提案する。
提案手法は,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用する。
SceneDreamer360はそのパノラマ画像生成と3DGSにより、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンを任意のテキストプロンプトから生成できることを示した。
論文 参考訳(メタデータ) (2024-08-25T02:56:26Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。