論文の概要: EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion
- arxiv url: http://arxiv.org/abs/2507.16535v2
- Date: Wed, 23 Jul 2025 01:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 12:00:05.689581
- Title: EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion
- Title(参考訳): EarthCrafter:Dual-Sparse Latent Diffusionによるスケーラブルな3D地球生成
- Authors: Shang Liu, Chenjie Cao, Chaohui Yu, Wen Qian, Jing Wang, Fan Wang,
- Abstract要約: Aerial-Earth3Dは、これまでで最大の3D空中データセットで、アメリカ本土で撮影された50万のキュレートされたシーン(それぞれ600m×600m)で構成されています。
各シーンは、ポーズアノテートされたマルチビューイメージ、深度マップ、ノーマル、セマンティックセグメンテーション、カメラのポーズを提供し、地形の多様性を保証するための明確な品質制御を提供する。
我々は,スパースデカップリング型潜水拡散による大規模3次元地球生成に適したフレームワークであるEarthCrafterを提案する。
- 参考スコア(独自算出の注目度): 23.3834795181211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable developments achieved by recent 3D generation works, scaling these methods to geographic extents, such as modeling thousands of square kilometers of Earth's surface, remains an open challenge. We address this through a dual innovation in data infrastructure and model architecture. First, we introduce Aerial-Earth3D, the largest 3D aerial dataset to date, consisting of 50k curated scenes (each measuring 600m x 600m) captured across the U.S. mainland, comprising 45M multi-view Google Earth frames. Each scene provides pose-annotated multi-view images, depth maps, normals, semantic segmentation, and camera poses, with explicit quality control to ensure terrain diversity. Building on this foundation, we propose EarthCrafter, a tailored framework for large-scale 3D Earth generation via sparse-decoupled latent diffusion. Our architecture separates structural and textural generation: 1) Dual sparse 3D-VAEs compress high-resolution geometric voxels and textural 2D Gaussian Splats (2DGS) into compact latent spaces, largely alleviating the costly computation suffering from vast geographic scales while preserving critical information. 2) We propose condition-aware flow matching models trained on mixed inputs (semantics, images, or neither) to flexibly model latent geometry and texture features independently. Extensive experiments demonstrate that EarthCrafter performs substantially better in extremely large-scale generation. The framework further supports versatile applications, from semantic-guided urban layout generation to unconditional terrain synthesis, while maintaining geographic plausibility through our rich data priors from Aerial-Earth3D. Our project page is available at https://whiteinblue.github.io/earthcrafter/
- Abstract(参考訳): 最近の3D世代による顕著な発展にもかかわらず、地球表面の数千平方キロメートルのモデリングなど、これらの手法を地理的に拡張することは、未解決の課題である。
データインフラストラクチャとモデルアーキテクチャの2つのイノベーションによって、この問題に対処しています。
Aerial-Earth3Dは、これまでで最大の3D空中データセットで、アメリカ本土で撮影された50万のキュレートされたシーン(それぞれ600m×600m)から成っている。
各シーンは、ポーズアノテートされたマルチビューイメージ、深度マップ、ノーマル、セマンティックセグメンテーション、カメラのポーズを提供し、地形の多様性を保証するための明確な品質制御を提供する。
この基礎の上に構築されたEarthCrafterは,スパースデカップリングによる潜伏拡散による大規模3次元地球生成に適したフレームワークである。
私たちのアーキテクチャは、構造とテクスチャの生成を分離します。
1) 二重スパース3D-VAEは、高分解能な幾何学ボクセルと2DGSをコンパクトな潜在空間に圧縮し、重要な情報を保持しながら、膨大な地理的スケールに悩まされるコスト計算を軽減した。
2) 混合入力(セマンティックス, 画像, あるいはどちらも)に基づいて学習した条件認識フローマッチングモデルを提案し, ゆらぎのある幾何学的特徴とテクスチャ的特徴を独立にモデル化する。
大規模な実験により、EarthCrafterは極大規模世代で大幅に性能が向上した。
このフレームワークはさらに、セマンティック誘導型都市レイアウト生成から無条件地形合成まで多用途アプリケーションをサポートしながら、Aerial-Earth3Dの豊富なデータによる地理的な可視性を維持している。
私たちのプロジェクトページはhttps://whiteinblue.github.io/earthcrafter/で公開されています。
関連論文リスト
- Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields [25.969442927216893]
GeoProg3Dは、都市規模の高忠実度3Dシーンとの自然言語駆動インタラクションを可能にするビジュアルプログラミングフレームワークである。
本フレームワークでは,GV-APIを動的に組み合わせ,GCLFを動作させるための推論エンジンとして,大規模言語モデル(LLM)を採用している。
実験により、GeoProg3Dは既存の3D言語フィールドや視覚言語モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-06-29T18:03:03Z) - REArtGS: Reconstructing and Generating Articulated Objects via 3D Gaussian Splatting with Geometric and Motion Constraints [48.80178020541189]
REArtGSは、幾何学的および運動的制約を3Dガウスプリミティブに導入する新しいフレームワークである。
我々は,3次元ガウス多様体の変形可能場を定式化対象の運動構造に拘束し,未知の状態における表面メッシュの教師なし生成を実現する。
論文 参考訳(メタデータ) (2025-03-09T16:05:36Z) - CULTURE3D: A Large-Scale and Diverse Dataset of Cultural Landmarks and Terrains for Gaussian-Based Scene Rendering [12.299096433876676]
現在の最先端の3D再構築モデルは、大規模な屋外シーンを構築する際の限界に直面している。
本稿では,41,006個のドローンによる高解像度空中画像からなる100億点の細粒度データセットを提案する。
既存のデータセットと比較すると、我々は非常に大きなスケールと詳細を提供しており、きめ細かい3Dアプリケーションに特化しています。
論文 参考訳(メタデータ) (2025-01-12T20:36:39Z) - Skyeyes: Ground Roaming using Aerial View Images [9.159470619808127]
地上画像のシーケンスを生成するための新しいフレームワークであるSkyeyesを紹介した。
より具体的には、3D表現とビュー一貫した生成モデルを組み合わせることで、生成された画像間のコヒーレンスを保証する。
画像は、空間的時間的コヒーレンスとリアリズムを改善し、空間的視点からシーンの理解と可視化を強化する。
論文 参考訳(メタデータ) (2024-09-25T07:21:43Z) - EarthGen: Generating the World from Top-Down Views [23.66194982885544]
本稿では,広域な地形モデリングのための新しい手法を提案する。
我々のモデルの中核は超解像拡散モデルのカスケードであり、複数の解像度で一貫した画像を生成するために組み合わせることができる。
提案手法は,Bing Mapsから収集したデータセット上で評価し,超高解像度の1024倍ズーム処理において,超高解像度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-02T23:17:56Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata [70.9375320609781]
我々は,自律走行車(AV)で多量に捕獲された大規模LiDARスキャンから微細な3次元形状を生成することを目指している。
本稿では,空間的にスケーラブルな3次元生成モデルである階層型生成セルオートマトン (hGCA) を提案する。
論文 参考訳(メタデータ) (2024-06-12T14:56:56Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。