論文の概要: Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors
- arxiv url: http://arxiv.org/abs/2501.02519v1
- Date: Sun, 05 Jan 2025 12:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:17.100543
- Title: Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors
- Title(参考訳): Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Outearance Diffusion Priors
- Authors: Minglin Chen, Longguang Wang, Sheng Ao, Ye Zhang, Kai Xu, Yulan Guo,
- Abstract要約: 本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
- 参考スコア(独自算出の注目度): 52.63385546943866
- License:
- Abstract: 3D scene generation conditioned on text prompts has significantly progressed due to the development of 2D diffusion generation models. However, the textual description of 3D scenes is inherently inaccurate and lacks fine-grained control during training, leading to implausible scene generation. As an intuitive and feasible solution, the 3D layout allows for precise specification of object locations within the scene. To this end, we present a text-to-scene generation method (namely, Layout2Scene) using additional semantic layout as the prompt to inject precise control of 3D object positions. Specifically, we first introduce a scene hybrid representation to decouple objects and backgrounds, which is initialized via a pre-trained text-to-3D model. Then, we propose a two-stage scheme to optimize the geometry and appearance of the initialized scene separately. To fully leverage 2D diffusion priors in geometry and appearance generation, we introduce a semantic-guided geometry diffusion model and a semantic-geometry guided diffusion model which are finetuned on a scene dataset. Extensive experiments demonstrate that our method can generate more plausible and realistic scenes as compared to state-of-the-art approaches. Furthermore, the generated scene allows for flexible yet precise editing, thereby facilitating multiple downstream applications.
- Abstract(参考訳): テキストプロンプトに条件付けされた3次元シーン生成は,2次元拡散生成モデルの開発により著しく進展した。
しかし、3Dシーンのテキスト記述は本質的に不正確であり、訓練中にきめ細かな制御が欠如しており、不明瞭なシーン生成につながっている。
直感的で実現可能なソリューションとして、3Dレイアウトでは、シーン内のオブジェクト位置を正確に指定することができる。
この目的のために,3次元オブジェクト位置の正確な制御をインジェクトするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
具体的には、まず、オブジェクトと背景を分離するためのシーンハイブリッド表現を導入し、事前学習されたテキストから3Dモデルを介して初期化する。
そこで本研究では,初期化シーンの形状と外観を個別に最適化する2段階の手法を提案する。
幾何学と外観生成における2次元拡散の先行をフル活用するために,シーンデータセットに微調整された意味誘導幾何拡散モデルと意味幾何学誘導拡散モデルを導入する。
大規模な実験により,本手法は最先端の手法と比較して,より可塑性でリアルなシーンを生成できることが実証された。
さらに、生成されたシーンは柔軟で正確な編集を可能にし、複数のダウンストリームアプリケーションを容易にする。
関連論文リスト
- Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches [50.51643519253066]
3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。
本稿では,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成するための,新しいディープラーニングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-08T16:27:37Z) - Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - Free-form 3D Scene Inpainting with Dual-stream GAN [20.186778638697696]
フリーフォーム3Dシーンインペイントという新しいタスクを提示する。
以前の3D補完データセットのシーンとは異なり、提案された塗装データセットには、大きく多様な欠落した領域が含まれている。
図形情報と色情報の両方を融合した2重ストリームジェネレータは、異なる意味境界を生成する。
さらに細部を拡大するため、我々の軽量なデュアルストリーム判別器は、予測されたシーンの形状と色エッジをリアルかつシャープに調整する。
論文 参考訳(メタデータ) (2022-12-16T13:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。