論文の概要: Planner3D: LLM-enhanced graph prior meets 3D indoor scene explicit regularization
- arxiv url: http://arxiv.org/abs/2403.12848v2
- Date: Mon, 26 Aug 2024 12:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 23:56:35.830265
- Title: Planner3D: LLM-enhanced graph prior meets 3D indoor scene explicit regularization
- Title(参考訳): Planner3D: LLM拡張グラフが3次元屋内シーンの明示的な正規化に先行する
- Authors: Yao Wei, Martin Renqiang Min, George Vosselman, Li Erran Li, Michael Ying Yang,
- Abstract要約: 3Dシーンの合成は、ロボティクス、映画、ビデオゲームといった様々な産業に多様な応用がある。
本稿では,シーングラフからリアルで合理的な屋内シーンを生成することを目的とする。
本手法は,特にシーンレベルの忠実度の観点から,より優れた3次元シーン合成を実現する。
- 参考スコア(独自算出の注目度): 31.52569918586902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional 3D scene synthesis has diverse applications across a spectrum of industries such as robotics, films, and video games, as it closely mirrors the complexity of real-world multi-object environments. Conventional works typically employ shape retrieval based frameworks which naturally suffer from limited shape diversity. Recent progresses have been made in object shape generation with generative models such as diffusion models, which increases the shape fidelity. However, these approaches separately treat 3D shape generation and layout generation. The synthesized scenes are usually hampered by layout collision, which suggests that the scene-level fidelity is still under-explored. In this paper, we aim at generating realistic and reasonable 3D indoor scenes from scene graph. To enrich the priors of the given scene graph inputs, large language model is utilized to aggregate the global-wise features with local node-wise and edge-wise features. With a unified graph encoder, graph features are extracted to guide joint layout-shape generation. Additional regularization is introduced to explicitly constrain the produced 3D layouts. Benchmarked on the SG-FRONT dataset, our method achieves better 3D scene synthesis, especially in terms of scene-level fidelity. The source code will be released after publication.
- Abstract(参考訳): 構成的な3Dシーン合成は、ロボット工学、映画、ビデオゲームなど様々な産業で応用されており、実世界のマルチオブジェクト環境の複雑さをよく反映している。
従来の作品では、形状の多様性の制限に苦しむ形状検索に基づくフレームワークが一般的である。
近年, 拡散モデルなどの生成モデルを用いて物体形状の生成が進展しており, 形状の忠実度が向上している。
しかし,これらの手法は3次元形状生成とレイアウト生成を別々に扱う。
合成されたシーンは、通常はレイアウトの衝突によって妨げられ、シーンレベルの忠実度はまだ未調査であることを示している。
本稿では,シーングラフからリアルで合理的な屋内シーンを生成することを目的とする。
与えられたシーングラフ入力の先行情報を豊かにするために、大規模言語モデルを用いて、グローバルな機能とローカルなノードワイドおよびエッジワイド機能とを集約する。
統一グラフエンコーダを用いて、グラフ特徴を抽出し、共同レイアウト・形状生成を誘導する。
生成された3Dレイアウトを明示的に制約するために、追加の正規化が導入される。
本手法は,SG-FRONTデータセットを用いて,特にシーンレベルの忠実度の観点から,より優れた3次元シーン合成を実現する。
ソースコードは公開後に公開される。
関連論文リスト
- DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - 3D scene generation from scene graphs and self-attention [51.49886604454926]
本稿では,シーングラフとフロアプランから3次元シーンを合成する条件付き変分オートエンコーダ(cVAE)モデルを提案する。
我々は、シーン内のオブジェクト間の高レベルな関係をキャプチャするために、自己注意層の特性を利用する。
論文 参考訳(メタデータ) (2024-04-02T12:26:17Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。