論文の概要: GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2603.07624v1
- Date: Sun, 08 Mar 2026 13:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.059191
- Title: GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion
- Title(参考訳): GeoLoco:ロバストなRGB専用ロコモーションのためのビジュアルファウンデーションモデルからの3D幾何学的優先順位の活用
- Authors: Yufei Liu, Xieyuanli Chen, Hainan Pan, Chenghao Shi, Yanjie Chen, Kaihong Huang, Zhiwen Zeng, Huimin Lu,
- Abstract要約: GeoLocoは、凍結されたスケール対応ビジュアルファウンデーションモデル(VFM)の強力な幾何学的先行情報を活用することにより、モノクル画像を高次元の潜伏表現として概念化する
GeoLocoは、Unitree G1ヒューマノイドへの堅牢なゼロショット転送を実現し、挑戦的な地形の交渉に成功している。
- 参考スコア(独自算出の注目度): 17.719701533574412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing paradigm of perceptive humanoid locomotion relies heavily on active depth sensors. However, this depth-centric approach fundamentally discards the rich semantic and dense appearance cues of the visual world, severing low-level control from the high-level reasoning essential for general embodied intelligence. While monocular RGB offers a ubiquitous, information-dense alternative, end-to-end reinforcement learning from raw 2D pixels suffers from extreme sample inefficiency and catastrophic sim-to-real collapse due to the inherent loss of geometric scale. To break this deadlock, we propose GeoLoco, a purely RGB-driven locomotion framework that conceptualizes monocular images as high-dimensional 3D latent representations by harnessing the powerful geometric priors of a frozen, scale-aware Visual Foundation Model (VFM). Rather than naive feature concatenation, we design a proprioceptive-query multi-head cross-attention mechanism that dynamically attends to task-critical topological features conditioned on the robot's real-time gait phase. Crucially, to prevent the policy from overfitting to superficial textures, we introduce a dual-head auxiliary learning scheme. This explicit regularization forces the high-dimensional latent space to strictly align with the physical terrain geometry, ensuring robust zero-shot sim-to-real transfer. Trained exclusively in simulation, GeoLoco achieves robust zero-shot transfer to the Unitree G1 humanoid and successfully negotiates challenging terrains.
- Abstract(参考訳): 知覚的ヒューマノイド移動の主流パラダイムは、アクティブな深度センサーに大きく依存している。
しかし、この奥行き中心のアプローチは、視覚世界の豊かな意味と密接な外見の手がかりを根本的に取り除き、一般的な具体的知性に不可欠な高レベルな推論から低レベルな制御を絶つ。
モノクラーRGBは、ユビキタスで情報密度の高い代替手段を提供するが、生の2Dピクセルからのエンドツーエンドの強化学習は、幾何学的スケールの固有の損失により、極端なサンプル非効率と破滅的なsim-to-real崩壊に苦しむ。
このデッドロックを断ち切るために、凍ったスケール対応のVisual Foundation Model (VFM) の強力な幾何学的先行性を活用することにより、モノクロ画像を高次元の潜伏表現として概念化する、純粋にRGB駆動のロコモーションフレームワークであるGeoLocoを提案する。
本研究では,ロボットのリアルタイム歩行フェーズに係わるタスククリティカルなトポロジカルな特徴に動的に対応可能な,プロポロセプティブ・クエリー・マルチヘッド・クロスアテンション機構を設計する。
重要なことは、表面テクスチャに過度に適合しないよう、デュアルヘッド補助学習方式を導入することである。
この明示的な正則化は、高次元の潜在空間を物理的地形と厳密に整合させ、ロバストなゼロショット sim-to-real 移動を保証する。
シミュレーション専用に訓練されたGeoLocoは、Unitree G1ヒューマノイドへの堅牢なゼロショット転送を実現し、挑戦的な地形の交渉に成功している。
関連論文リスト
- SGR-OCC: Evolving Monocular Priors for Embodied 3D Occupancy Prediction via Soft-Gating Lifting and Semantic-Adaptive Geometric Refinement [9.891265334631889]
3Dセマンティック占有予測は、具現化されたAIの基盤である。
我々は,SGR-OCC(Soft-Gating and Ray-Refinement Occupancy)を提案する。
局所予測タスクでは、SGR-OCCは58.55$%の完了IoUと49.89$%のセマンティックmIoUを達成し、それぞれ3.65$%と3.69$%の前のベストメソッドであるEmbodiedOcc++を上回っている。
論文 参考訳(メタデータ) (2026-03-14T18:45:03Z) - Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:02:23Z) - Inverse Rendering for High-Genus 3D Surface Meshes from Multi-view Images with Persistent Homology Priors [11.227213428407673]
画像から3Dオブジェクトを再構成することは、本質的には幾何学、外観、トポロジーの曖昧さによる不適切な問題である。
本稿では,これらの曖昧さを解決するためにトポロジ的制約を活用する新しい戦略である,永続的ホモロジー先行と協調レンダリングを導入する。
論文 参考訳(メタデータ) (2026-01-17T20:06:19Z) - Robust Mesh Saliency GT Acquisition in VR via View Cone Sampling and Geometric Smoothing [59.12032628787018]
バーチャルリアリティー(VR)における人中心視覚モデリングには3次元メッシュサリエンシ基底真理が不可欠である
現在のVRアイトラッキングパイプラインは、単一線サンプリングとユークリッドのスムース化に依存しており、テクスチャの注意を喚起し、ギャップをまたいだ信号の漏洩を引き起こす。
本稿では,これらの制約に対処する頑健な枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:20:12Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Aligning Silhouette Topology for Self-Adaptive 3D Human Pose Recovery [70.66865453410958]
アーティキュレーション中心の2D/3Dポーズ監視は、既存の多くの人間のポーズ推定技術においてコアトレーニング目標を形成する。
本稿では,ソース学習モデルベース回帰器を適応させるために,シルエット監視のみに依存する新しいフレームワークを提案する。
我々は、トポロジカル・スケルトン表現を生シルエットから切り離すために、一連の畳み込みに優しい空間変換を開発する。
論文 参考訳(メタデータ) (2022-04-04T06:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。