論文の概要: MetaEarth3D: Unlocking World-scale 3D Generation with Spatially Scalable Generative Modeling
- arxiv url: http://arxiv.org/abs/2604.22828v1
- Date: Sun, 19 Apr 2026 15:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.96716
- Title: MetaEarth3D: Unlocking World-scale 3D Generation with Spatially Scalable Generative Modeling
- Title(参考訳): MetaEarth3D:空間的拡張可能な生成モデルによる世界規模3D生成のロック解除
- Authors: Jinqi Cao, Zhiping Yu, Baihong Lin, Chenyang Liu, Zhenwei Shi, Zhengxia Zou,
- Abstract要約: 生成型AIモデルは現実的な視覚的コンテンツを生成できるが、空間スケールは制限された環境に限られる。
本稿では,惑星スケールで空間的に一貫した生成が可能な最初の生成基盤モデルであるMetaEarth3Dを提案する。
MetaEarth3Dは1000万のグローバルに分散した実世界の訓練画像に基づいて構築され、強力なビジュアルリアリズムと地理空間統計リアリズムの両方を実証している。
- 参考スコア(独自算出の注目度): 34.811854423444224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent generative AI models have achieved remarkable breakthroughs in language and visual understanding. However, although these models can generate realistic visual content, their spatial scale remains confined to bounded environments, preventing them from capturing how geographic environments evolve across thousands of kilometers or from modeling the spatial structure of the large-scale physical world. This limitation poses a critical challenge for ultra-wide-area spatial intelligence in Earth observation and simulation, revealing a deeper gap in generative AI: progress has relied primarily on scaling model parameters and training data, while overlooking spatial scale as a core dimension of intelligence. Here, motivated by this missing dimension, we investigate spatial scale as a new scaling axis in foundation models and present MetaEarth3D, the first generative foundation model capable of spatially consistent generation at the planetary scale. Taking optical Earth observation simulation as a testbed, MetaEarth3D enables the generation of multi-level, unbounded, and diverse 3D scenes spanning large-scale terrains, medium-scale cities, and fine-grained street blocks. Built upon 10 million globally distributed real-world training images, MetaEarth3D demonstrates both strong visual realism and geospatial statistical realism. Beyond generation, MetaEarth3D serves as a generative data engine for diverse virtual environments in ultra-wide spatial intelligence. We argue that this study may help empower next-generation spatial intelligence for Earth observation.
- Abstract(参考訳): 最近の生成AIモデルは、言語と視覚的理解において驚くべきブレークスルーを達成している。
しかし、これらのモデルは現実的な視覚的コンテンツを生成できるが、空間スケールは境界付けられた環境に限られており、数千kmにわたる地理的環境の進化や、大規模物理世界の空間構造をモデル化することができない。
この制限は、地球観測とシミュレーションにおける超広域空間知能にとって重要な課題であり、生成的AIの深いギャップを明らかにしている。
ここでは, 基礎モデルにおける新しいスケーリング軸としての空間スケールと, 惑星スケールで空間的に一貫した生成が可能な最初の生成基盤モデルであるMetaEarth3Dについて検討する。
テストベッドとして光学地球観測シミュレーションを取り入れたMetaEarth3Dは、大規模地形、中規模都市、きめ細かい街路ブロックにまたがる多層・無界・多様な3Dシーンの生成を可能にする。
MetaEarth3Dは1000万のグローバルに分散した実世界の訓練画像に基づいて構築され、強力なビジュアルリアリズムと地理空間統計リアリズムの両方を実証している。
MetaEarth3Dは世代を超えて、超広帯域空間知能における多様な仮想環境のための生成データエンジンとして機能する。
この研究は、次世代の空間知能を地球観測に役立てるかもしれない。
関連論文リスト
- Beyond Pixel Histories: World Models with Persistent 3D State [50.4601060508243]
PERSISTは、潜伏した3Dシーンの進化をシミュレートする世界モデルの新たなパラダイムである。
既存の手法に比べて空間記憶,3次元整合性,長期安定性が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-03T19:58:31Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Terra: Explorable Native 3D World Model with Point Latents [74.90179419859415]
本稿では,本質的な3次元潜伏空間における探索可能な環境を表現・生成する,ネイティブな3次元世界モデルTerraを提案する。
具体的には、3次元入力を潜在点表現に符号化する新しい点対ガウス変分オートエンコーダ(P2G-VAE)を提案する。
次に、潜伏点表現を生成するためのスパース点フローマッチングネットワーク(SPFlow)を導入し、同時に潜伏点の位置と特徴を識別する。
論文 参考訳(メタデータ) (2025-10-16T17:59:56Z) - Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion [23.3834795181211]
Aerial-Earth3Dは、これまでで最大の3D空中データセットで、アメリカ本土で撮影された50万のキュレートされたシーン(それぞれ600m×600m)で構成されています。
各シーンは、ポーズアノテートされたマルチビューイメージ、深度マップ、ノーマル、セマンティックセグメンテーション、カメラのポーズを提供し、地形の多様性を保証するための明確な品質制御を提供する。
我々は,スパースデカップリング型潜水拡散による大規模3次元地球生成に適したフレームワークであるEarthCrafterを提案する。
論文 参考訳(メタデータ) (2025-07-22T12:46:48Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation [24.193486441413803]
生成基盤モデルであるMetaEarthについて,画像生成をグローバルなレベルに拡大することで障壁を破る。
MetaEarthでは,地理的解像度の広い任意の領域で画像を生成するための自己カスケード型自己カスケード生成フレームワークを提案する。
我々のモデルは、革新的なオーバヘッドの観点から地球視覚をシミュレートすることで、生成的世界モデルを構築する新たな可能性を開く。
論文 参考訳(メタデータ) (2024-05-22T12:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。