論文の概要: CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation
- arxiv url: http://arxiv.org/abs/2510.13245v1
- Date: Wed, 15 Oct 2025 07:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.5519
- Title: CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation
- Title(参考訳): CymbaDiff:Sketchを用いた3次元セマンティック都市景観生成のための構造的空間拡散
- Authors: Li Liang, Bo Miao, Xinyu Wang, Naveed Akhtar, Jordan Vice, Ajmal Mian,
- Abstract要約: フリーハンドスケッチと衛星画像から3D屋外セマンティックシーンを生成するための,最初の大規模ベンチマークであるSketchSem3Dを紹介する。
また,シーン生成における空間コヒーレンスを大幅に向上させるCyinder Mamba Diffusion (CymbaDiff)を提案する。
CymbaDiffは、優れたセマンティック一貫性、空間リアリズム、およびデータセット間の一般化を実現する。
- 参考スコア(独自算出の注目度): 55.74642848285121
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Outdoor 3D semantic scene generation produces realistic and semantically rich environments for applications such as urban simulation and autonomous driving. However, advances in this direction are constrained by the absence of publicly available, well-annotated datasets. We introduce SketchSem3D, the first large-scale benchmark for generating 3D outdoor semantic scenes from abstract freehand sketches and pseudo-labeled annotations of satellite images. SketchSem3D includes two subsets, Sketch-based SemanticKITTI and Sketch-based KITTI-360 (containing LiDAR voxels along with their corresponding sketches and annotated satellite images), to enable standardized, rigorous, and diverse evaluations. We also propose Cylinder Mamba Diffusion (CymbaDiff) that significantly enhances spatial coherence in outdoor 3D scene generation. CymbaDiff imposes structured spatial ordering, explicitly captures cylindrical continuity and vertical hierarchy, and preserves both physical neighborhood relationships and global context within the generated scenes. Extensive experiments on SketchSem3D demonstrate that CymbaDiff achieves superior semantic consistency, spatial realism, and cross-dataset generalization. The code and dataset will be available at https://github.com/Lillian-research-hub/CymbaDiff
- Abstract(参考訳): 屋外の3Dセマンティックシーン生成は、都市シミュレーションや自動運転といった応用のための現実的でセマンティックにリッチな環境を生成する。
しかし、この方向の進歩は、公開され、十分に注釈付けされたデータセットがないことによって制約される。
衛星画像の抽象的なフリーハンドスケッチと擬似ラベル付きアノテーションから3次元屋外セマンティックシーンを生成するための,最初の大規模ベンチマークであるSketchSem3Dを紹介する。
SketchSem3Dには、SketchベースのSemanticKITTIとSketchベースのKITTI-360(対応するスケッチと注釈付き衛星画像と共にLiDARボクセルを含む)の2つのサブセットが含まれており、標準化され、厳密で多様な評価を可能にする。
また,屋外3次元シーン生成における空間コヒーレンスを大幅に向上させるCylinder Mamba Diffusion (CymbaDiff)を提案する。
CymbaDiffは、構造化された空間秩序を課し、円筒状の連続性と垂直階層を明示的に捉え、生成されたシーン内の物理的近傍関係とグローバルコンテキストの両方を保存する。
SketchSem3Dの大規模な実験は、CymbaDiffが優れたセマンティック一貫性、空間リアリズム、およびクロスデータセットの一般化を実現することを示した。
コードとデータセットはhttps://github.com/Lillian-research-hub/CymbaDiffで入手できる。
関連論文リスト
- SPATIALGEN: Layout-guided 3D Indoor Scene Generation [37.30623176278608]
本研究では,現実的でセマンティックに整合した室内シーンを生成するマルチビューマルチモーダル拡散モデルであるSpatialGenを提案する。
3次元レイアウトと参照画像が与えられたモデルでは、任意の視点から外観(カラー画像)、幾何学(シーン座標マップ)、意味(セマンティックセグメンテーションマップ)を合成する。
私たちは、コミュニティを力づけ、屋内のシーン理解と生成の分野を前進させるために、データとモデルをオープンソース化しています。
論文 参考訳(メタデータ) (2025-09-18T14:12:32Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。