論文の概要: GeoSceneGraph: Geometric Scene Graph Diffusion Model for Text-guided 3D Indoor Scene Synthesis
- arxiv url: http://arxiv.org/abs/2511.14884v1
- Date: Tue, 18 Nov 2025 20:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.514296
- Title: GeoSceneGraph: Geometric Scene Graph Diffusion Model for Text-guided 3D Indoor Scene Synthesis
- Title(参考訳): GeoSceneGraph:テキスト誘導3次元室内シーン合成のための幾何学的シーングラフ拡散モデル
- Authors: Antonio Ruiz, Tao Wu, Andrew Melnik, Qing Cheng, Xuqin Wang, Lu Liu, Yongliang Wang, Yanfeng Zhang, Helge Ritter,
- Abstract要約: テキストプロンプトから室内の3Dシーンを合成する方法は、映画製作、インテリアデザイン、ビデオゲーム、バーチャルリアリティ、人工エージェントのトレーニングのための合成データ生成に広く応用されている。
既存のアプローチは通常、スクラッチから生成モデルを訓練するか、視覚言語モデル(VLM)を活用するかのいずれかである。
テキストプロンプトから3次元シーンを合成するGeoSceneGraphを導入する。
- 参考スコア(独自算出の注目度): 14.137982018879049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods that synthesize indoor 3D scenes from text prompts have wide-ranging applications in film production, interior design, video games, virtual reality, and synthetic data generation for training embodied agents. Existing approaches typically either train generative models from scratch or leverage vision-language models (VLMs). While VLMs achieve strong performance, particularly for complex or open-ended prompts, smaller task-specific models remain necessary for deployment on resource-constrained devices such as extended reality (XR) glasses or mobile phones. However, many generative approaches that train from scratch overlook the inherent graph structure of indoor scenes, which can limit scene coherence and realism. Conversely, methods that incorporate scene graphs either demand a user-provided semantic graph, which is generally inconvenient and restrictive, or rely on ground-truth relationship annotations, limiting their capacity to capture more varied object interactions. To address these challenges, we introduce GeoSceneGraph, a method that synthesizes 3D scenes from text prompts by leveraging the graph structure and geometric symmetries of 3D scenes, without relying on predefined relationship classes. Despite not using ground-truth relationships, GeoSceneGraph achieves performance comparable to methods that do. Our model is built on equivariant graph neural networks (EGNNs), but existing EGNN approaches are typically limited to low-dimensional conditioning and are not designed to handle complex modalities such as text. We propose a simple and effective strategy for conditioning EGNNs on text features, and we validate our design through ablation studies.
- Abstract(参考訳): テキストプロンプトから室内の3Dシーンを合成する方法は、映画製作、インテリアデザイン、ビデオゲーム、バーチャルリアリティ、人工エージェントのトレーニングのための合成データ生成に広く応用されている。
既存のアプローチでは、スクラッチから生成モデルをトレーニングするか、視覚言語モデル(VLM)を利用するのが一般的である。
VLMは特に複雑なプロンプトやオープンエンドプロンプトにおいて高いパフォーマンスを達成するが、拡張現実眼鏡(XR)や携帯電話のようなリソース制約のあるデバイスに展開するためには、より小さなタスク固有のモデルが必要である。
しかし、スクラッチから訓練する多くの生成的アプローチは、シーンコヒーレンスとリアリズムを制限することができる屋内シーンの固有のグラフ構造を見落としている。
逆に、シーングラフを組み込んだメソッドは、一般的に不便で制限的なユーザが提供するセマンティックグラフを要求するか、あるいは、より多様なオブジェクトインタラクションをキャプチャする能力を制限するために、地平関係アノテーションに依存する。
これらの課題に対処するため,テキストプロンプトから3次元シーンを合成するGeoSceneGraphを導入する。
GeoSceneGraphは、接地と真実の関係を使わずに、メソッドに匹敵するパフォーマンスを実現している。
我々のモデルは、同変グラフニューラルネットワーク(EGNN)上に構築されているが、既存のEGNNアプローチは通常、低次元条件付けに限定されており、テキストのような複雑なモダリティを扱うように設計されていない。
本稿では,テキスト特徴量に基づくEGNNの条件付けをシンプルかつ効果的に行うための戦略を提案し,その設計をアブレーション研究により検証する。
関連論文リスト
- SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D [51.32219731589742]
3Dシーングラフは、オブジェクトエンティティとその関連性の構造化された表現を提供する。
3次元シーングラフ生成のための既存のアプローチは、通常、シーン再構成とグラフニューラルネットワーク(GNN)を組み合わせる。
本研究では,3次元のSGR3モデルを用いたScene Graph Retrieval-Reasoning Modelを提案する。
論文 参考訳(メタデータ) (2026-03-04T21:19:54Z) - SceneLinker: Compositional 3D Scene Generation via Semantic Scene Graph from RGB Sequences [12.771171646896468]
SceneLinkerはRGBシーケンスからセマンティックシーングラフによって構成的な3Dシーンを生成するフレームワークである。
我々の研究により、ユーザーはシーングラフを通して物理的な環境から一貫した3D空間を生成でき、空間的混合現実感(MR)コンテンツを作成することができる。
論文 参考訳(メタデータ) (2026-02-03T01:22:07Z) - RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming [79.81527946524098]
RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。
我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。
静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
論文 参考訳(メタデータ) (2026-01-27T10:10:55Z) - MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation [14.959772906099039]
MMGDreamerは、Mixed-Modality Graphを組み込んだシーン生成のための二重ブランチ拡散モデルである。
ビジュアルエンハンスメントモジュールは、テキスト埋め込みを使用して視覚表現を構築することで、テキストのみのノードの視覚的忠実度を高める。
我々の関係予測器はノード表現を利用してノード間の不連続な関係を推定し、より一貫性のあるシーンレイアウトをもたらす。
論文 参考訳(メタデータ) (2025-02-09T12:23:40Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。