論文の概要: Scene Generation at Absolute Scale: Utilizing Semantic and Geometric Guidance From Text for Accurate and Interpretable 3D Indoor Scene Generation
- arxiv url: http://arxiv.org/abs/2603.13910v1
- Date: Sat, 14 Mar 2026 11:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.48198
- Title: Scene Generation at Absolute Scale: Utilizing Semantic and Geometric Guidance From Text for Accurate and Interpretable 3D Indoor Scene Generation
- Title(参考訳): 絶対的なスケールでのシーン生成:3次元室内シーンの精度と解釈のためのテキストからのセマンティックおよび幾何学的ガイダンスの利用
- Authors: Stefan Ainetter, Thomas Deixelberger, Edoardo A. Dominici, Philipp Drescher, Konstantinos Vardis, Markus Steinberger,
- Abstract要約: GuidedSceneGenは、メートル法的に正確で、一貫した、意味的に解釈可能な屋内シーンを生成する。
我々のアプローチは、生成プロセス全体を通して絶対的な世界座標フレームを維持します。
- 参考スコア(独自算出の注目度): 5.189354278537469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GuidedSceneGen, a text-to-3D generation framework that produces metrically accurate, globally consistent, and semantically interpretable indoor scenes. Unlike prior text-driven methods that often suffer from geometric drift or scale ambiguity, our approach maintains an absolute world coordinate frame throughout the entire generation process. Starting from a textual scene description, we predict a global 3D layout encoding both semantic and geometric structure, which serves as a guiding proxy for downstream stages. A semantics- and depth-conditioned panoramic diffusion model then synthesizes 360° imagery aligned with the global layout, substantially improving spatial coherence. To explore unobserved regions, we employ a video diffusion model guided by optimized camera trajectories that balances coverage and collision avoidance, achieving up to 10x faster sampling compared to exhaustive path exploration. The generated views are fused using 3D Gaussian Splatting, yielding a consistent and fully navigable 3D scene in absolute scale. GuidedSceneGen enables accurate transfer of object poses and semantic labels from layout to reconstruction, and supports progressive scene expansion without re-alignment. Quantitative results and a user study demonstrate greater 3D consistency and layout plausibility compared to recent panoramic text-to-3D baselines.
- Abstract(参考訳): GuidedSceneGenは,定量的かつ一貫した,意味論的に解釈可能な屋内シーンを生成するテキストから3D生成フレームワークである。
幾何学的ドリフトやスケールの曖昧さに悩まされる従来のテキスト駆動手法とは異なり、我々の手法は生成プロセス全体を通して絶対的な世界座標フレームを維持している。
テキストのシーン記述から、下流のステージのガイドプロキシとして機能する意味的構造と幾何学的構造の両方を符号化したグローバルな3Dレイアウトを予測する。
セマンティクスおよび深度条件付きパノラマ拡散モデルにより、大域的な配置に沿った360度画像を合成し、空間コヒーレンスを大幅に改善する。
未観測領域を探索するために、最適化されたカメラトラジェクトリによって誘導されるビデオ拡散モデルを用いて、網羅と衝突回避のバランスを保ち、網羅的な経路探索に比べて最大10倍高速サンプリングを実現する。
生成されたビューは3Dガウススプラッティングで融合され、絶対的なスケールで一貫した完全な3Dシーンが得られる。
GuidedSceneGenは、レイアウトから再構築までのオブジェクトのポーズとセマンティックラベルの正確な転送を可能にし、アライメントなしでプログレッシブなシーン拡張をサポートする。
最近のパノラマテキスト・ツー・3Dベースラインと比較して, 定量的な結果とユーザスタディにより, 3次元の整合性とレイアウトの妥当性が向上した。
関連論文リスト
- Pano360: Perspective to Panoramic Vision with Geometric Consistency [7.713672589538202]
我々は新しいトランスフォーマーベースのアーキテクチャを採用し、すべての視点で3D認識とグローバル情報を集約する。
評価ベンチマークを確立し,ネットワークをトレーニングするために,実世界のシーンの大規模データセットを構築した。
論文 参考訳(メタデータ) (2026-03-12T14:56:14Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion [15.837932667195037]
IGFuseは対話型ガウスシーンを複数のスキャンから観測することで再構成する新しいフレームワークである。
本手法は,ガウス場を意識したセグメンテーションを構築し,スキャン間の双方向光度・セマンティック一貫性を実現する。
IGFuseは、密度の高い観測や複雑なパイプラインを使わずに、高忠実なレンダリングとオブジェクトレベルのシーン操作を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:47Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文 参考訳(メタデータ) (2025-01-05T12:20:13Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - Planner3D: LLM-enhanced graph prior meets 3D indoor scene explicit regularization [31.52569918586902]
3Dシーンの合成は、ロボティクス、映画、ビデオゲームといった様々な産業に多様な応用がある。
本稿では,シーングラフからリアルで合理的な屋内シーンを生成することを目的とする。
本手法は,特にシーンレベルの忠実度の観点から,より優れた3次元シーン合成を実現する。
論文 参考訳(メタデータ) (2024-03-19T15:54:48Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。