論文の概要: WorldGrow: Generating Infinite 3D World
- arxiv url: http://arxiv.org/abs/2510.21682v1
- Date: Fri, 24 Oct 2025 17:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.559582
- Title: WorldGrow: Generating Infinite 3D World
- Title(参考訳): WorldGrow: 無限の3Dワールドを創出する
- Authors: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian,
- Abstract要約: 我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
- 参考スコア(独自算出の注目度): 75.81531067447203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the challenge of generating the infinitely extendable 3D world -- large, continuous environments with coherent geometry and realistic appearance. Existing methods face key challenges: 2D-lifting approaches suffer from geometric and appearance inconsistencies across views, 3D implicit representations are hard to scale up, and current 3D foundation models are mostly object-centric, limiting their applicability to scene-level generation. Our key insight is leveraging strong generation priors from pre-trained 3D models for structured scene block generation. To this end, we propose WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our method features three core components: (1) a data curation pipeline that extracts high-quality scene blocks for training, making the 3D structured latent representations suitable for scene generation; (2) a 3D block inpainting mechanism that enables context-aware scene extension; and (3) a coarse-to-fine generation strategy that ensures both global layout plausibility and local geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset, WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely supporting infinite scene generation with photorealistic and structurally consistent outputs. These results highlight its capability for constructing large-scale virtual environments and potential for building future world models.
- Abstract(参考訳): 我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
2Dリフトアプローチは、ビュー間の幾何学的および外観上の矛盾に悩まされ、3D暗黙の表現はスケールアップが困難であり、現在の3D基盤モデルは、主にオブジェクト指向であり、シーンレベルの生成に適用性を制限する。
我々のキーとなる洞察は、事前訓練された3Dモデルから、より強力な世代を、構造化されたシーンブロック生成に活用することである。
そこで本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
大規模な3D-FRONTデータセットに基づいて、WorldGrowは幾何再構成におけるSOTA性能を達成し、フォトリアリスティックで構造的に一貫した出力で無限シーン生成を一意にサポートする。
これらの結果は、大規模仮想環境の構築能力と将来の世界モデル構築の可能性を強調している。
関連論文リスト
- Terra: Explorable Native 3D World Model with Point Latents [74.90179419859415]
本稿では,本質的な3次元潜伏空間における探索可能な環境を表現・生成する,ネイティブな3次元世界モデルTerraを提案する。
具体的には、3次元入力を潜在点表現に符号化する新しい点対ガウス変分オートエンコーダ(P2G-VAE)を提案する。
次に、潜伏点表現を生成するためのスパース点フローマッチングネットワーク(SPFlow)を導入し、同時に潜伏点の位置と特徴を識別する。
論文 参考訳(メタデータ) (2025-10-16T17:59:56Z) - End-to-End Fine-Tuning of 3D Texture Generation using Differentiable Rewards [8.953379216683732]
本稿では,人間のフィードバックを3次元テクスチャパイプラインに直接埋め込む,エンドツーエンドの微分可能・強化学習不要なフレームワークを提案する。
幾何学的および外見的モジュールによる好み信号のバックプロパゲーションにより、3次元幾何学的構造を尊重し、所望の基準と整合するテクスチャを生成する。
論文 参考訳(メタデータ) (2025-06-23T06:24:12Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Pyramid Diffusion for Fine 3D Large Scene Generation [56.00726092690535]
拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。
大規模な3Dシーンの合成への応用はめったに研究されていない。
本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
論文 参考訳(メタデータ) (2023-11-20T11:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。