論文の概要: CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation
- arxiv url: http://arxiv.org/abs/2510.13245v2
- Date: Thu, 16 Oct 2025 03:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 11:58:42.084881
- Title: CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation
- Title(参考訳): CymbaDiff:Sketchを用いた3次元セマンティック都市景観生成のための構造的空間拡散
- Authors: Li Liang, Bo Miao, Xinyu Wang, Naveed Akhtar, Jordan Vice, Ajmal Mian,
- Abstract要約: フリーハンドスケッチと衛星画像から3D屋外セマンティックシーンを生成するための,最初の大規模ベンチマークであるSketchSem3Dを紹介する。
また,シーン生成における空間コヒーレンスを大幅に向上させるCyinder Mamba Diffusion (CymbaDiff)を提案する。
CymbaDiffは、優れたセマンティック一貫性、空間リアリズム、およびデータセット間の一般化を実現する。
- 参考スコア(独自算出の注目度): 55.74642848285121
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Outdoor 3D semantic scene generation produces realistic and semantically rich environments for applications such as urban simulation and autonomous driving. However, advances in this direction are constrained by the absence of publicly available, well-annotated datasets. We introduce SketchSem3D, the first large-scale benchmark for generating 3D outdoor semantic scenes from abstract freehand sketches and pseudo-labeled annotations of satellite images. SketchSem3D includes two subsets, Sketch-based SemanticKITTI and Sketch-based KITTI-360 (containing LiDAR voxels along with their corresponding sketches and annotated satellite images), to enable standardized, rigorous, and diverse evaluations. We also propose Cylinder Mamba Diffusion (CymbaDiff) that significantly enhances spatial coherence in outdoor 3D scene generation. CymbaDiff imposes structured spatial ordering, explicitly captures cylindrical continuity and vertical hierarchy, and preserves both physical neighborhood relationships and global context within the generated scenes. Extensive experiments on SketchSem3D demonstrate that CymbaDiff achieves superior semantic consistency, spatial realism, and cross-dataset generalization. The code and dataset will be available at https://github.com/Lillian-research-hub/CymbaDiff
- Abstract(参考訳): 屋外の3Dセマンティックシーン生成は、都市シミュレーションや自動運転といった応用のための現実的でセマンティックにリッチな環境を生成する。
しかし、この方向の進歩は、公開され、十分に注釈付けされたデータセットがないことによって制約される。
衛星画像の抽象的なフリーハンドスケッチと擬似ラベル付きアノテーションから3次元屋外セマンティックシーンを生成するための,最初の大規模ベンチマークであるSketchSem3Dを紹介する。
SketchSem3Dには、SketchベースのSemanticKITTIとSketchベースのKITTI-360(対応するスケッチと注釈付き衛星画像と共にLiDARボクセルを含む)の2つのサブセットが含まれており、標準化され、厳密で多様な評価を可能にする。
また,屋外3次元シーン生成における空間コヒーレンスを大幅に向上させるCylinder Mamba Diffusion (CymbaDiff)を提案する。
CymbaDiffは、構造化された空間秩序を課し、円筒状の連続性と垂直階層を明示的に捉え、生成されたシーン内の物理的近傍関係とグローバルコンテキストの両方を保存する。
SketchSem3Dの大規模な実験は、CymbaDiffが優れたセマンティック一貫性、空間リアリズム、およびクロスデータセットの一般化を実現することを示した。
コードとデータセットはhttps://github.com/Lillian-research-hub/CymbaDiffで入手できる。
関連論文リスト
- SceneLinker: Compositional 3D Scene Generation via Semantic Scene Graph from RGB Sequences [12.771171646896468]
SceneLinkerはRGBシーケンスからセマンティックシーングラフによって構成的な3Dシーンを生成するフレームワークである。
我々の研究により、ユーザーはシーングラフを通して物理的な環境から一貫した3D空間を生成でき、空間的混合現実感(MR)コンテンツを作成することができる。
論文 参考訳(メタデータ) (2026-02-03T01:22:07Z) - Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation [14.377332218510743]
Top2Groundは、空中入力画像から地上画像を直接生成する新しい拡散法である。
本研究では,VAE符号化空間特徴の共役表現にデノナイジング過程を規定する。
Top2Groundは、広視野と狭視野の両方を強力に扱うことができ、その強力な一般化能力を強調している。
論文 参考訳(メタデータ) (2025-11-11T13:53:07Z) - SPATIALGEN: Layout-guided 3D Indoor Scene Generation [37.30623176278608]
本研究では,現実的でセマンティックに整合した室内シーンを生成するマルチビューマルチモーダル拡散モデルであるSpatialGenを提案する。
3次元レイアウトと参照画像が与えられたモデルでは、任意の視点から外観(カラー画像)、幾何学(シーン座標マップ)、意味(セマンティックセグメンテーションマップ)を合成する。
私たちは、コミュニティを力づけ、屋内のシーン理解と生成の分野を前進させるために、データとモデルをオープンソース化しています。
論文 参考訳(メタデータ) (2025-09-18T14:12:32Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。