論文の概要: Co-generation of Layout and Shape from Text via Autoregressive 3D Diffusion
- arxiv url: http://arxiv.org/abs/2604.16552v1
- Date: Fri, 17 Apr 2026 07:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.067775
- Title: Co-generation of Layout and Shape from Text via Autoregressive 3D Diffusion
- Title(参考訳): 自己回帰3次元拡散によるテキストからのレイアウトと形状の同時生成
- Authors: Zhenggang Tang, Yuehao Wang, Yuchen Fan, Jun-Kun Chen, Yu-Ying Yeh, Kihyuk Sohn, Zhangyang Wang, Qixing Huang, Alexander Schwing, Rakesh Ranjan, Dilin Wang, Zhicheng Yan,
- Abstract要約: 本稿では,インタラクティブなシーン生成のための新たな生成モデルを提案する。
中心となる3D自己回帰拡散モデル3D-ARD+は、マルチモーダルトークンシーケンス上の自己回帰生成と、次の対象の3D潜伏剤の拡散生成を統一する。
7B 3D-ARD+を困難な場面で評価し,テキスト命令によって規定される非自明な空間的レイアウトや意味をモデルが生成・配置できることを示す。
- 参考スコア(独自算出の注目度): 115.33888186717162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent text-to-scene generation approaches largely reduced the manual efforts required to create 3D scenes. However, their focus is either to generate a scene layout or to generate objects, and few generate both. The generated scene layout is often simple even with LLM's help. Moreover, the generated scene is often inconsistent with the text input that contains non-trivial descriptions of the shape, appearance, and spatial arrangement of the objects. We present a new paradigm of sequential text-to-scene generation and propose a novel generative model for interactive scene creation. At the core is a 3D Autoregressive Diffusion model 3D-ARD+, which unifies the autoregressive generation over a multimodal token sequence and diffusion generation of next-object 3D latents. To generate the next object, the model uses one autoregressive step to generate the coarse-grained 3D latents in the scene space, conditioned on both the current seen text instructions and already synthesized 3D scene. It then uses a second step to generate the 3D latents in the smaller object space, which can be decoded into fine-grained object geometry and appearance. We curate a large dataset of 230K indoor scenes with paired text instructions for training. We evaluate 7B 3D-ARD+, on challenging scenes, and showcase the model can generate and place objects following non-trivial spatial layout and semantics prescribed by the text instructions.
- Abstract(参考訳): 最近のテキスト・ツー・シーン・ジェネレーションのアプローチは、3Dシーンを作成するのに必要な手作業を大幅に削減した。
しかし、彼らの焦点はシーンレイアウトを生成するか、オブジェクトを生成するか、両方を生成することにある。
生成されたシーンレイアウトは、LLMの助けを借りても単純であることが多い。
さらに、生成されたシーンは、オブジェクトの形状、外観、空間配置の非自明な記述を含むテキスト入力と矛盾することが多い。
本稿では,インタラクティブなシーン生成のための新たな生成モデルを提案する。
中心となる3D自己回帰拡散モデル3D-ARD+は、マルチモーダルトークンシーケンス上の自己回帰生成と、次の対象の3D潜伏剤の拡散生成を統一する。
次のオブジェクトを生成するために、モデルは1つの自己回帰ステップを使用して、シーン空間の粗い粒度の3Dラテントを生成し、現在のテキスト命令と既に合成されている3Dシーンの両方に条件付けする。
次に2番目のステップを使用して、小さなオブジェクト空間で3Dラテントを生成し、細かなオブジェクト形状と外観にデコードすることができる。
230万の屋内シーンの大規模なデータセットをペアのテキストによるトレーニングでキュレートする。
7B 3D-ARD+を困難な場面で評価し,テキスト命令によって規定される非自明な空間的レイアウトや意味をモデルが生成・配置できることを示す。
関連論文リスト
- Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文 参考訳(メタデータ) (2025-01-05T12:20:13Z) - Toward Scene Graph and Layout Guided Complex 3D Scene Generation [31.396230860775415]
Scene GraphとLayout Guided 3D Scene Generation(GraLa3D)の新たなフレームワークを提案する。
複雑な3Dシーンを記述するテキストプロンプトが与えられたとき、GraLa3Dはレイアウト境界ボックス情報を持つシーングラフ表現を使用してシーンをモデル化する。
GraLa3Dは、単一オブジェクトノードと複合スーパーノードでシーングラフを独自に構築する。
論文 参考訳(メタデータ) (2024-12-29T14:21:03Z) - SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。
本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-11T17:59:58Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。