論文の概要: GeoWorld: Geometric World Models
- arxiv url: http://arxiv.org/abs/2602.23058v1
- Date: Thu, 26 Feb 2026 14:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.725747
- Title: GeoWorld: Geometric World Models
- Title(参考訳): GeoWorld: 幾何学的世界モデル
- Authors: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley,
- Abstract要約: GeoWorldは幾何学的構造と階層的関係を保存する幾何学的世界モデルである。
エネルギーベース最適化のための幾何強化学習について紹介する。
CrossTaskとCOINの実験では、3段階計画では3%のSR改善、4段階計画では2%のSR改善が示されている。
- 参考スコア(独自算出の注目度): 8.827302748701173
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.
- Abstract(参考訳): エネルギーベースの予測的世界モデルは、画素を生成するのではなく、遅延したエネルギーの景観を推論することで、多段階の視覚計画に強力なアプローチを提供する。
しかし、既存のアプローチは2つの大きな課題に直面している。
i) それらの潜在表現は典型的にユークリッド空間で学習され、状態間の基底となる幾何学的・階層的構造を無視し、
(二)長軸予測に苦慮し、ロールアウト期間を延ばすと急速に劣化する。
これらの課題に対処するために、幾何構造と階層関係を保存する幾何世界モデルGeoWorldを紹介し、ユークリッド空間から双曲多様体への潜在表現をマッピングする。
さらに、エネルギーベース最適化のための幾何強化学習を導入し、双曲型潜在空間における安定した多段階計画を可能にする。
CrossTaskとCOINの大規模な実験は、最先端のV-JEPA 2.0と比較して、3段階計画における3%のSR改善と4段階計画における2%のSR改善を実証している。
プロジェクトウェブサイト: https://steve-zeyu-zhang.github.io/GeoWorld
関連論文リスト
- Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Geo2Vec: Shape- and Distance-Aware Neural Representation of Geospatial Entities [13.206124101350847]
署名された距離場(SDF)にインスパイアされた新しい手法であるGeo2Vecを導入し、元の空間で直接動作する。
SDFを近似するように訓練されたニューラルネットワークは、すべてのジオエンタリティタイプに対してコンパクトで幾何学的、統一された表現を生成する。
実験結果から,Geo2Vecは形状と位置を表す既存の手法より一貫して優れており,トポロジカルおよび距離の関係を捉え,実世界のGeoAIアプリケーションにおいて高い効率を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-26T07:12:28Z) - EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion [23.3834795181211]
Aerial-Earth3Dは、これまでで最大の3D空中データセットで、アメリカ本土で撮影された50万のキュレートされたシーン(それぞれ600m×600m)で構成されています。
各シーンは、ポーズアノテートされたマルチビューイメージ、深度マップ、ノーマル、セマンティックセグメンテーション、カメラのポーズを提供し、地形の多様性を保証するための明確な品質制御を提供する。
我々は,スパースデカップリング型潜水拡散による大規模3次元地球生成に適したフレームワークであるEarthCrafterを提案する。
論文 参考訳(メタデータ) (2025-07-22T12:46:48Z) - Follow the Energy, Find the Path: Riemannian Metrics from Energy-Based Models [63.331590876872944]
本稿では,事前学習したエネルギーベースモデルから直接リーマン計量を導出する手法を提案する。
これらの測度は空間的に異なる距離を定義し、測地学の計算を可能にする。
EBM由来のメトリクスは、確立されたベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-05-23T12:18:08Z) - Aether: Geometric-Aware Unified World Modeling [49.33579903601599]
Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
本フレームワークは,動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文 参考訳(メタデータ) (2025-03-24T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。