論文の概要: SYNBUILD-3D: A large, multi-modal, and semantically rich synthetic dataset of 3D building models at Level of Detail 4
- arxiv url: http://arxiv.org/abs/2508.21169v1
- Date: Thu, 28 Aug 2025 19:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.856944
- Title: SYNBUILD-3D: A large, multi-modal, and semantically rich synthetic dataset of 3D building models at Level of Detail 4
- Title(参考訳): SynBUILD-3D:Level of Detail 4における3Dビルディングモデルの大規模でマルチモーダルでセマンティックにリッチな合成データセット
- Authors: Kevin Mayer, Alex Vesel, Xinyi Zhao, Martin Fischer,
- Abstract要約: 今回紹介するSynBUILD-3Dは, 大規模かつ多様かつマルチモーダルな3D合成住宅群を, レベル・オブ・ディーテール(LoD)4で620万棟以上導入した。
このデータセットでは、各建物はLoD 4の3Dワイヤーフレームグラフ(Modality I)、対応するフロアプラン画像(Modality II)、LiDAR風屋根点雲(Modality III)の3つの異なるモードで表現される。
各ビルディングワイヤフレームのセマンティックアノテーションは、対応するフロアプランイメージから導出され、部屋、ドア、窓に関する情報を含む。
- 参考スコア(独自算出の注目度): 1.3166179099143722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D building models are critical for applications in architecture, energy simulation, and navigation. Yet, generating accurate and semantically rich 3D buildings automatically remains a major challenge due to the lack of large-scale annotated datasets in the public domain. Inspired by the success of synthetic data in computer vision, we introduce SYNBUILD-3D, a large, diverse, and multi-modal dataset of over 6.2 million synthetic 3D residential buildings at Level of Detail (LoD) 4. In the dataset, each building is represented through three distinct modalities: a semantically enriched 3D wireframe graph at LoD 4 (Modality I), the corresponding floor plan images (Modality II), and a LiDAR-like roof point cloud (Modality III). The semantic annotations for each building wireframe are derived from the corresponding floor plan images and include information on rooms, doors, and windows. Through its tri-modal nature, future work can use SYNBUILD-3D to develop novel generative AI algorithms that automate the creation of 3D building models at LoD 4, subject to predefined floor plan layouts and roof geometries, while enforcing semantic-geometric consistency. Dataset and code samples are publicly available at https://github.com/kdmayer/SYNBUILD-3D.
- Abstract(参考訳): 3Dビルディングモデルは、アーキテクチャ、エネルギーシミュレーション、ナビゲーションの応用に不可欠である。
しかし、パブリックドメインに大規模なアノテートデータセットがないため、正確でセマンティックにリッチな3Dビルディングを自動生成することは大きな課題である。
コンピュータビジョンにおける合成データの成功に触発されて、我々は、Level of Detail (LoD) 4で6200万以上の合成3D住宅の大規模で多様なマルチモーダルデータセットであるSynBUILD-3Dを紹介した。
データセットでは、各建物は、LoD 4(Modality I)における意味的にリッチな3Dワイヤーフレームグラフ、対応するフロアプランイメージ(Modality II)、LiDARのような屋根点雲(Modality III)の3つの異なるモードで表現される。
各ビルディングワイヤフレームのセマンティックアノテーションは、対応するフロアプランイメージから導出され、部屋、ドア、窓に関する情報を含む。
将来の作業では、SynBUILD-3Dを使用して、事前に定義されたフロアプランレイアウトと屋根の幾何学的整合性を確保しながら、LoD 4での3Dビルディングモデルの自動作成を自動化する、新たな生成AIアルゴリズムを開発することができる。
データセットとコードサンプルはhttps://github.com/kdmayer/SYNBUILD-3Dで公開されている。
関連論文リスト
- Aligning Text, Images, and 3D Structure Token-by-Token [8.521599463802637]
構造化3次元シーンにおける自己回帰モデルの可能性について検討する。
言語,画像,3Dシーンを整合させる統一LLMフレームワークを提案する。
実世界の3Dオブジェクト認識タスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2025-06-09T17:59:37Z) - SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models [8.30675860216862]
人間は自然に3D空間の関係を理解し、異なる方向から車両の衝突を予測するような複雑な推論を可能にする。
現在の大型マルチモーダルモデル(LMM)は3次元空間推論の能力を欠いている。
本研究では,高度な3次元空間推論能力を持つ大規模マルチモーダルモデルであるSpatialLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-01T18:36:17Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - SyntheOcc: Synthesize Geometric-Controlled Street View Images through 3D Semantic MPIs [34.41011015930057]
SyntheOccは、2次元拡散モデルに対する条件入力として3次元幾何学情報を効率的にエンコードする方法の課題に対処する。
提案手法は,3次元意味的マルチプレーン画像(MPI)を革新的に組み込んで,包括的かつ空間的に整合した3次元シーン記述を提供する。
論文 参考訳(メタデータ) (2024-10-01T02:29:24Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Pyramid Diffusion for Fine 3D Large Scene Generation [56.00726092690535]
拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。
大規模な3Dシーンの合成への応用はめったに研究されていない。
本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
論文 参考訳(メタデータ) (2023-11-20T11:24:21Z) - UniG3D: A Unified 3D Object Generation Dataset [75.49544172927749]
UniG3Dは、ShapeNetデータセット上に普遍的なデータ変換パイプラインを用いて構築された、統一された3Dオブジェクト生成データセットである。
このパイプラインは、各生の3Dモデルを包括的なマルチモーダルデータ表現に変換する。
データセットのデータソースの選択は、そのスケールと品質に基づいています。
論文 参考訳(メタデータ) (2023-06-19T07:03:45Z) - Scan2LoD3: Reconstructing semantic 3D building models at LoD3 using ray
casting and Bayesian networks [40.7734793392562]
詳細レベル(LoD)3でセマンティックな3Dビルディングモデルを再構築することは、長年にわたる課題である。
セマンティックなLoD3構築モデルを正確に再構築する新しい手法であるScan2LoD3を提案する。
提案手法は,LoD3における確率駆動型セマンティック3次元再構成の開発を促進できると考えている。
論文 参考訳(メタデータ) (2023-05-10T17:01:18Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。