論文の概要: WorldMesh: Generating Navigable Multi-Room 3D Scenes via Mesh-Conditioned Image Diffusion
- arxiv url: http://arxiv.org/abs/2603.22972v1
- Date: Tue, 24 Mar 2026 09:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.396127
- Title: WorldMesh: Generating Navigable Multi-Room 3D Scenes via Mesh-Conditioned Image Diffusion
- Title(参考訳): WorldMesh:メッシュによる画像拡散によるナビゲート可能なマルチルーム3Dシーンの生成
- Authors: Manuel-Andreas Schneider, Angela Dai,
- Abstract要約: テキスト・ツー・イメージとビデオのアプローチは、明示的な幾何学が欠如しているため、限られた環境スケールを超えてシーンレベルの一貫性とオブジェクトレベルの一貫性を維持するのに苦労する。
本稿では,大規模な3次元シーン合成の複雑な問題を構造合成に分解する幾何学的手法を提案する。
これにより、スケーラブルで任意の大きさのオブジェクトのリッチさと多様性の3Dシーンが実現され、堅牢な3D一貫性とフォトリアリスティックなディテールが組み合わさる。
- 参考スコア(独自算出の注目度): 39.78606573330677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in image and video synthesis has inspired their use in advancing 3D scene generation. However, we observe that text-to-image and -video approaches struggle to maintain scene- and object-level consistency beyond a limited environment scale due to the absence of explicit geometry. We thus present a geometry-first approach that decouples this complex problem of large-scale 3D scene synthesis into its structural composition, represented as a mesh scaffold, and realistic appearance synthesis, which leverages powerful image synthesis models conditioned on the mesh scaffold. From an input text description, we first construct a mesh capturing the environment's geometry (walls, floors, etc.), and then use image synthesis, segmentation and object reconstruction to populate the mesh structure with objects in realistic layouts. This mesh scaffold is then rendered to condition image synthesis, providing a structural backbone for consistent appearance generation. This enables scalable, arbitrarily-sized 3D scenes of high object richness and diversity, combining robust 3D consistency with photorealistic detail. We believe this marks a significant step toward generating truly environment-scale, immersive 3D worlds.
- Abstract(参考訳): 映像と映像の合成の最近の進歩は、3Dシーン生成の進展にインスピレーションを与えている。
しかし,テキスト・トゥ・イメージとビデオ・アプローチは,明示的な幾何学が欠如しているため,限られた環境スケールを超えてシーンレベルの一貫性やオブジェクトレベルの一貫性を維持するのに苦慮している。
そこで我々は,大規模な3次元シーン合成の複雑な問題を,メッシュの足場として表現された構造構成と,メッシュの足場に条件付けされた強力な画像合成モデルを活用したリアルな外観合成に分解する幾何学的手法を提案する。
入力テキストの記述から、まず環境の幾何学(壁、床など)を捉えたメッシュを構築し、画像合成、セグメンテーション、オブジェクト再構成を用いて、メッシュ構造をリアルなレイアウトで表現する。
このメッシュ足場は条件画像合成にレンダリングされ、一貫した外観生成のための構造的バックボーンを提供する。
これにより、スケーラブルで任意の大きさのオブジェクトのリッチさと多様性の3Dシーンが実現され、堅牢な3D一貫性とフォトリアリスティックなディテールが組み合わさる。
これは、真の環境スケールで没入型3D世界を生み出すための重要なステップだと考えています。
関連論文リスト
- Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement [12.855027334688382]
Photo3Dは、GPT-4o画像モデル画像データによって駆動される3D生成を促進するためのフレームワークである。
本稿では,知覚的特徴適応とセマンティック構造マッチングを利用して外観整合性を強制する,現実的な詳細強化手法を提案する。
提案手法は,異なる3Dネイティブジェネレータに対して汎用的であり,幾何学的テクスチャ結合とデカップリングされた3Dネイティブジェネレータの最適化を容易にするための専用トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-12-09T12:33:48Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Realistic Image Synthesis with Configurable 3D Scene Layouts [59.872657806747576]
本稿では,3次元シーンレイアウトに基づくリアルな画像合成手法を提案する。
提案手法では, セマンティッククラスラベルを入力として3Dシーンを抽出し, 3Dシーンの描画ネットワークを訓練する。
訓練された絵画ネットワークにより、入力された3Dシーンのリアルな外観の画像を描画し、操作することができる。
論文 参考訳(メタデータ) (2021-08-23T09:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。