論文の概要: SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models
- arxiv url: http://arxiv.org/abs/2403.15698v1
- Date: Sat, 23 Mar 2024 03:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:32:08.100258
- Title: SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models
- Title(参考訳): SceneX:大規模言語モデルによる手続き制御可能な大規模シーン生成
- Authors: Mengqi Zhou, Jun Hou, Chuanchen Luo, Yuxi Wang, Zhaoxiang Zhang, Junran Peng,
- Abstract要約: 本稿では,デザイナーのテキスト記述に従って高品質なプロシージャモデルを自動生成する大規模シーン生成フレームワークであるSceneXを紹介する。
私たちのSceneXは、微妙な幾何学的レイアウトと構造を持つ2.5km×2.5kmの都市を生成でき、プロのPCGエンジニアの数週間の時間を大幅に短縮して、普通のユーザにとっては数時間に過ぎません。
- 参考スコア(独自算出の注目度): 53.961002112433576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to its great application potential, large-scale scene generation has drawn extensive attention in academia and industry. Recent research employs powerful generative models to create desired scenes and achieves promising results. However, most of these methods represent the scene using 3D primitives (e.g. point cloud or radiance field) incompatible with the industrial pipeline, which leads to a substantial gap between academic research and industrial deployment. Procedural Controllable Generation (PCG) is an efficient technique for creating scalable and high-quality assets, but it is unfriendly for ordinary users as it demands profound domain expertise. To address these issues, we resort to using the large language model (LLM) to drive the procedural modeling. In this paper, we introduce a large-scale scene generation framework, SceneX, which can automatically produce high-quality procedural models according to designers' textual descriptions.Specifically, the proposed method comprises two components, PCGBench and PCGPlanner. The former encompasses an extensive collection of accessible procedural assets and thousands of hand-craft API documents. The latter aims to generate executable actions for Blender to produce controllable and precise 3D assets guided by the user's instructions. Our SceneX can generate a city spanning 2.5 km times 2.5 km with delicate layout and geometric structures, drastically reducing the time cost from several weeks for professional PCG engineers to just a few hours for an ordinary user. Extensive experiments demonstrated the capability of our method in controllable large-scale scene generation and editing, including asset placement and season translation.
- Abstract(参考訳): その大きな応用可能性のために、大規模なシーン生成は学術や産業で広く注目を集めている。
近年の研究では、望ましいシーンを作成し、有望な結果を得るために強力な生成モデルが採用されている。
しかし、これらの手法のほとんどは、産業パイプラインと互換性のない3Dプリミティブ(例えば、点雲や放射場)を使用してシーンを表現するため、学術研究と産業展開の間に大きなギャップが生じる。
PCG(Procedural Controllable Generation)は、スケーラブルで高品質な資産を作成するための効率的な手法であるが、ドメインの深い専門知識を必要とするため、一般ユーザにとって親しみやすいものではない。
これらの問題に対処するため,我々は,大規模言語モデル (LLM) を用いて手続き的モデリングを行う。
本稿では,デザイナーのテキスト記述に従って高品質なプロシージャモデルを自動生成する大規模シーン生成フレームワークであるSceneXを紹介し,本手法はPCGBenchとPCGPlannerの2つのコンポーネントから構成される。
前者は、アクセシブルな手続き資産と数千のハンドクラフトAPIドキュメントを含む。
後者の目的は、Blenderがユーザの指示によって誘導される制御可能で正確な3Dアセットを生成するために実行可能なアクションを生成することである。
私たちのSceneXは、繊細なレイアウトと幾何学的構造を持つ2.5km×2.5kmの都市を生成でき、プロのPCGエンジニアの数週間の時間を大幅に短縮して、普通のユーザにとっては数時間に過ぎません。
大規模なシーン生成と編集の制御が可能な手法として,資産配置や季節翻訳など,広範囲にわたる実験を行った。
関連論文リスト
- PhiP-G: Physics-Guided Text-to-3D Compositional Scene Generation [5.554872561486615]
合成シーン生成のための新しいフレームワークPhiP-Gを提案する。
PhiP-Gは、世界モデルに基づくレイアウトガイダンスと生成技術をシームレスに統合する。
実験により、PhiP-Gは合成シーンの生成品質と物理的合理性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-02T07:47:03Z) - Interactive Scene Authoring with Specialized Generative Primitives [25.378818867764323]
Specialized Generative Primitivesは、熟練していないユーザーが高品質な3Dシーンを作成できる生成フレームワークである。
各プリミティブは、実世界から1つの例の分布をキャプチャする効率的な生成モデルである。
実世界のシーンから様々なプリミティブを抽出し、3Dアセットやシーンを数分で作成できるように制御するインタラクティブセッションを紹介する。
論文 参考訳(メタデータ) (2024-12-20T04:39:50Z) - Proc-GS: Procedural Building Generation for City Assembly with 3D Gaussians [65.09942210464747]
資産の創出は労働集約的であり、設計ルールを開発するには専門的なスキルが必要である。
作成のための最近の生成モデルは、しばしばこれらのパターンを見落とし、視覚的忠実度が低く、スケーラビリティが制限される。
手続き的なコードを操作することで、このプロセスを合理化し、無限に多様な建物を生成することができます。
論文 参考訳(メタデータ) (2024-12-10T16:45:32Z) - Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。
ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文 参考訳(メタデータ) (2023-11-29T18:55:38Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Compositional Transformers for Scene Generation [13.633811200719627]
本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。
視覚的品質,多様性,一貫性の観点から,最先端のパフォーマンスを実現していることを示す。
さらなる実験はモデルの絡み合いを実証し、生成過程についてより深い洞察を与える。
論文 参考訳(メタデータ) (2021-11-17T08:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。