論文の概要: Sat2City: 3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
- arxiv url: http://arxiv.org/abs/2507.04403v1
- Date: Sun, 06 Jul 2025 14:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.162432
- Title: Sat2City: 3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
- Title(参考訳): Sat2City:1つの衛星画像からの3次元都市生成
- Authors: Tongyan Hua, Lutao Jiang, Ying-Cong Chen, Wufan Zhao,
- Abstract要約: Sat2Cityは、スパースボクセルグリッドの表現能力を潜在拡散モデルと相乗化する新しいフレームワークである。
衛星視高マップと組み合わせた大規模3D都市を合成したデータセットを提案する。
本フレームワークは, 衛星画像から詳細な3次元構造を生成し, 既存の都市モデルに比べ, 忠実度に優れていた。
- 参考スコア(独自算出の注目度): 18.943643720564996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in generative models have enabled 3D urban scene generation from satellite imagery, unlocking promising applications in gaming, digital twins, and beyond. However, most existing methods rely heavily on neural rendering techniques, which hinder their ability to produce detailed 3D structures on a broader scale, largely due to the inherent structural ambiguity derived from relatively limited 2D observations. To address this challenge, we propose Sat2City, a novel framework that synergizes the representational capacity of sparse voxel grids with latent diffusion models, tailored specifically for our novel 3D city dataset. Our approach is enabled by three key components: (1) A cascaded latent diffusion framework that progressively recovers 3D city structures from satellite imagery, (2) a Re-Hash operation at its Variational Autoencoder (VAE) bottleneck to compute multi-scale feature grids for stable appearance optimization and (3) an inverse sampling strategy enabling implicit supervision for smooth appearance transitioning.To overcome the challenge of collecting real-world city-scale 3D models with high-quality geometry and appearance, we introduce a dataset of synthesized large-scale 3D cities paired with satellite-view height maps. Validated on this dataset, our framework generates detailed 3D structures from a single satellite image, achieving superior fidelity compared to existing city generation models.
- Abstract(参考訳): 生成モデルの最近の進歩により、衛星画像から3D都市シーンを生成できるようになり、ゲームやデジタルツインなどの有望な応用が解き放たれた。
しかし、既存のほとんどの手法はニューラルレンダリング技術に大きく依存しており、比較的限られた2D観察から生じる構造的曖昧さのために、より広いスケールで詳細な3D構造を作成できない。
この課題に対処するために、我々は、新しい3D都市データセットに特化して設計された、スパースボクセルグリッドの表現能力を潜在拡散モデルと相乗化する新しいフレームワークであるSat2Cityを提案する。
提案手法は, 衛星画像から3次元都市構造を段階的に復元するカスケード遅延拡散フレームワーク, 2) 変分オートエンコーダ(VAE)ボトルネックにおける再ハッシュ操作による, 安定した外観最適化のためのマルチスケール特徴グリッドの計算, (3) スムーズな外観遷移の暗黙的な監視を可能にする逆サンプリング戦略, そして, 高品質な幾何学と外観を持つ実世界の都市規模3次元モデルの収集という課題を克服するために, 衛星視高マップと組み合わせた大規模3次元都市のデータセットを導入する。
本手法は, 衛星画像から詳細な3次元構造を生成し, 既存の都市モデルと比較した場合の忠実度を向上する。
関連論文リスト
- EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - DirectTriGS: Triplane-based Gaussian Splatting Field Representation for 3D Generation [37.09199962653554]
ガウススプラッティング(GS)を用いた3次元オブジェクト生成のための新しいフレームワークであるDirectTriGSを提案する。
提案した生成フレームワークは,テキスト・ツー・3Dタスクにおいて高品質な3Dオブジェクト形状とレンダリング結果を生成することができる。
論文 参考訳(メタデータ) (2025-03-10T04:05:38Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - City-scale Incremental Neural Mapping with Three-layer Sampling and
Panoptic Representation [5.682979644056021]
我々は、環境レベルとインスタンスレベルのモデリングからなるパノプティクス表現を用いた都市規模連続型ニューラルマッピングシステムを構築した。
疎いLiDAR点雲のストリームが与えられると、3D座標を符号付き距離場(SDF)値にマッピングする動的生成モデルを維持する。
不完全な観測下でのインスタンスの高忠実度マッピングを実現するために、幾何学的詳細をより良くモデル化するために、カテゴリ固有の事前を導入している。
論文 参考訳(メタデータ) (2022-09-28T13:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。