論文の概要: Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding
- arxiv url: http://arxiv.org/abs/2603.07039v1
- Date: Sat, 07 Mar 2026 05:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.704324
- Title: Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding
- Title(参考訳): 4次元空間時間埋め込みを用いた自己監督型マルチモーダルワールドモデル
- Authors: Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang,
- Abstract要約: 我々は、新しい惑星スケールの4次元時空位置エンコーダであるEarth4Dを用いた、自己監督型マルチモーダル世界モデルであるDeepEarthを紹介する。
Earth4Dは3Dのマルチ解像度ハッシュエンコーディングを拡張して、何世紀にもわたって惑星を数秒以下の精度で効率的にスケールする。
地球4Dの表現力は、生態予測ベンチマーク上で最先端の性能を達成することで実証する。
- 参考スコア(独自算出の注目度): 6.448677008806052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DeepEarth, a self-supervised multi-modal world model with Earth4D, a novel planetary-scale 4D space-time positional encoder. Earth4D extends 3D multi-resolution hash encoding to include time, efficiently scaling across the planet over centuries with sub-meter, sub-second precision. Multi-modal encoders (e.g. vision-language models) are fused with Earth4D embeddings and trained via masked reconstruction. We demonstrate Earth4D's expressive power by achieving state-of-the-art performance on an ecological forecasting benchmark. Earth4D with learnable hash probing surpasses a multi-modal foundation model pre-trained on substantially more data. Access open source code and download models at: https://github.com/legel/deepearth
- Abstract(参考訳): 我々は、新しい惑星スケールの4次元時空位置エンコーダであるEarth4Dを用いた、自己監督型マルチモーダル世界モデルであるDeepEarthを紹介する。
Earth4Dは3Dのマルチ解像度ハッシュエンコーディングを拡張して、何世紀にもわたって惑星を数秒以下の精度で効率的にスケールする。
マルチモーダルエンコーダ(例えば視覚言語モデル)は、アース4Dの埋め込みと融合し、マスクによる再構築によって訓練される。
地球4Dの表現力は、生態予測ベンチマーク上で最先端の性能を達成することで実証する。
学習可能なハッシュ探索を持つEarth4Dは、かなり多くのデータに基づいて事前訓練されたマルチモーダル基礎モデルを上回る。
https://github.com/legel/deepearth
関連論文リスト
- Terra: Explorable Native 3D World Model with Point Latents [74.90179419859415]
本稿では,本質的な3次元潜伏空間における探索可能な環境を表現・生成する,ネイティブな3次元世界モデルTerraを提案する。
具体的には、3次元入力を潜在点表現に符号化する新しい点対ガウス変分オートエンコーダ(P2G-VAE)を提案する。
次に、潜伏点表現を生成するためのスパース点フローマッチングネットワーク(SPFlow)を導入し、同時に潜伏点の位置と特徴を識別する。
論文 参考訳(メタデータ) (2025-10-16T17:59:56Z) - OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling [86.12242953301121]
我々は,4次元世界モデリングに特化した大規模マルチドメインマルチモーダルデータセットであるOmniWorldを紹介した。
既存の合成データセットと比較して、OmniWorld-Gameはよりリッチなモダリティカバレッジ、より大きなスケール、より現実的な動的インタラクションを提供する。
我々は、複雑な4D環境のモデリングにおいて、現在の最先端(SOTA)アプローチの限界を明らかにするための挑戦的なベンチマークを確立する。
論文 参考訳(メタデータ) (2025-09-15T17:59:19Z) - EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion [23.3834795181211]
Aerial-Earth3Dは、これまでで最大の3D空中データセットで、アメリカ本土で撮影された50万のキュレートされたシーン(それぞれ600m×600m)で構成されています。
各シーンは、ポーズアノテートされたマルチビューイメージ、深度マップ、ノーマル、セマンティックセグメンテーション、カメラのポーズを提供し、地形の多様性を保証するための明確な品質制御を提供する。
我々は,スパースデカップリング型潜水拡散による大規模3次元地球生成に適したフレームワークであるEarthCrafterを提案する。
論文 参考訳(メタデータ) (2025-07-22T12:46:48Z) - TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。
これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文 参考訳(メタデータ) (2025-04-29T17:59:30Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。