論文の概要: Urban Architect: Steerable 3D Urban Scene Generation with Layout Prior
- arxiv url: http://arxiv.org/abs/2404.06780v1
- Date: Wed, 10 Apr 2024 06:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 15:19:53.029972
- Title: Urban Architect: Steerable 3D Urban Scene Generation with Layout Prior
- Title(参考訳): アーバンアーキテクト:レイアウトを前にした3D都市シーンをステアブルに作り出す
- Authors: Fan Lu, Kwan-Yee Lin, Yan Xu, Hongsheng Li, Guang Chen, Changjun Jiang,
- Abstract要約: 合成3Dレイアウト表現をテキストから3Dのパラダイムに導入し、さらに先行として機能する。
単純な幾何学的構造と明示的な配置関係を持つ意味的プリミティブの集合から構成される。
また,様々なシーン編集デモを行い,ステアブルな都市景観生成の力を示す。
- 参考スコア(独自算出の注目度): 43.14168074750301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-3D generation has achieved remarkable success via large-scale text-to-image diffusion models. Nevertheless, there is no paradigm for scaling up the methodology to urban scale. Urban scenes, characterized by numerous elements, intricate arrangement relationships, and vast scale, present a formidable barrier to the interpretability of ambiguous textual descriptions for effective model optimization. In this work, we surmount the limitations by introducing a compositional 3D layout representation into text-to-3D paradigm, serving as an additional prior. It comprises a set of semantic primitives with simple geometric structures and explicit arrangement relationships, complementing textual descriptions and enabling steerable generation. Upon this, we propose two modifications -- (1) We introduce Layout-Guided Variational Score Distillation to address model optimization inadequacies. It conditions the score distillation sampling process with geometric and semantic constraints of 3D layouts. (2) To handle the unbounded nature of urban scenes, we represent 3D scene with a Scalable Hash Grid structure, incrementally adapting to the growing scale of urban scenes. Extensive experiments substantiate the capability of our framework to scale text-to-3D generation to large-scale urban scenes that cover over 1000m driving distance for the first time. We also present various scene editing demonstrations, showing the powers of steerable urban scene generation. Website: https://urbanarchitect.github.io.
- Abstract(参考訳): テキスト・ツー・3D生成は大規模テキスト・ツー・イメージ拡散モデルによって顕著な成功を収めた。
それでも、方法論を都市規模にスケールアップするためのパラダイムは存在しない。
多くの要素、複雑な配置関係、大規模で特徴付けられる都市景観は、効果的なモデル最適化のための曖昧なテキスト記述の解釈可能性に対する大きな障壁となる。
本研究では,テキストから3Dのパラダイムに合成3Dレイアウトの表現を導入することで,その制約を克服する。
単純な幾何学的構造と明示的な配置関係を持つセマンティックプリミティブのセットで構成され、テキスト記述を補完し、ステアブル生成を可能にする。
そこで, モデル最適化の不整合に対処するため, 1) レイアウト誘導変分スコア蒸留を導入する。
3次元レイアウトの幾何学的および意味的な制約を伴って、スコア蒸留サンプリングプロセスの条件付けを行う。
2) 都市景観の非有界性に対処するため, 都市景観の大規模化に順応し, スケーラブル・ハッシュ・グリッド構造で3次元シーンを表現した。
大規模な実験により、初めて1000m以上の走行距離をカバーする大規模都市にテキスト・ツー・3D生成を拡張できるフレームワークが実証された。
また,様々なシーン編集デモを行い,ステアブルな都市景観生成の力を示す。
公式サイト:https://urbanarchitect.github.io
関連論文リスト
- CityX: Controllable Procedural Content Generation for Unbounded 3D Cities [55.737060358043536]
そこで我々は,CityXという新しいマルチモーダル制御可能な手続き型コンテンツ生成手法を提案する。
OSM、セマンティックマップ、衛星画像など、複数のレイアウト条件でガイドされるリアルで無拘束の3D都市生成を強化する。
この効果的なフレームワークを通じて、CityXは3Dシーン生成のための革新的なエコシステムを構築する可能性を示している。
論文 参考訳(メタデータ) (2024-07-24T18:05:13Z) - COHO: Context-Sensitive City-Scale Hierarchical Urban Layout Generation [1.5745692520785073]
都市規模の都市レイアウト生成のための新しいグラフベースのマスク付きオートエンコーダ(GMAE)を提案する。
この方法は、属性付き建物、都市ブロック、コミュニティ、都市を統一的なグラフ構造に符号化する。
提案手法は,米国330都市における異質な都市スタイルにおける良好な現実性,意味的整合性,正当性を実現する。
論文 参考訳(メタデータ) (2024-07-16T00:49:53Z) - CityCraft: A Real Crafter for 3D City Generation [25.7885801163556]
CityCraftは、都市シーン生成の多様性と品質の両方を強化するために設計された革新的なフレームワークである。
提案手法は,まず拡散変圧器(DiT)モデルを用いて,多種かつ制御可能な2次元都市レイアウトを生成する。
生成したレイアウトと都市計画に基づいて,Blenderとアセット検索モジュールを用いて,正確なアセット配置とシーン構築を行う。
論文 参考訳(メタデータ) (2024-06-07T14:49:00Z) - Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - CityDreamer: Compositional Generative Model of Unbounded 3D Cities [44.203932215464214]
CityDreamerは、非有界な3D都市向けに特別に設計された合成モデルである。
我々は、鳥の視線シーン表現を採用し、インスタンス指向と物指向のニューラルフィールドの両方にボリュームレンダリングを採用する。
CityDreamerは、現実的な3D都市を生成するだけでなく、生成された都市内の局所的な編集でも、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-01T17:57:02Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。