論文の概要: SpatialAnt: Autonomous Zero-Shot Robot Navigation via Active Scene Reconstruction and Visual Anticipation
- arxiv url: http://arxiv.org/abs/2603.26837v1
- Date: Fri, 27 Mar 2026 08:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.657116
- Title: SpatialAnt: Autonomous Zero-Shot Robot Navigation via Active Scene Reconstruction and Visual Anticipation
- Title(参考訳): SpaceAnt: アクティブシーン再構築と視覚予測による自律ゼロショットロボットナビゲーション
- Authors: Jiwen Zhang, Xiangyu Shi, Siyuan Wang, Zerui Li, Zhongyu Wei, Qi Wu,
- Abstract要約: SpaceAntは、不完全な自己再構成と堅牢な実行の間のギャップを埋めるために設計されたゼロショットナビゲーションフレームワークである。
本研究では,SpatialAntがシミュレーションおよび実世界の環境において既存のゼロショット法より著しく優れていることを示す。
- 参考スコア(独自算出の注目度): 45.461768743080604
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-and-Language Navigation (VLN) has recently benefited from Multimodal Large Language Models (MLLMs), enabling zero-shot navigation. While recent exploration-based zero-shot methods have shown promising results by leveraging global scene priors, they rely on high-quality human-crafted scene reconstructions, which are impractical for real-world robot deployment. When encountering an unseen environment, a robot should build its own priors through pre-exploration. However, these self-built reconstructions are inevitably incomplete and noisy, which severely degrade methods that depend on high-quality scene reconstructions. To address these issues, we propose SpatialAnt, a zero-shot navigation framework designed to bridge the gap between imperfect self-reconstructions and robust execution. SpatialAnt introduces a physical grounding strategy to recover the absolute metric scale for monocular-based reconstructions. Furthermore, rather than treating the noisy self-reconstructed scenes as absolute spatial references, we propose a novel visual anticipation mechanism. This mechanism leverages the noisy point clouds to render future observations, enabling the agent to perform counterfactual reasoning and prune paths that contradict human instructions. Extensive experiments in both simulated and real-world environments demonstrate that SpatialAnt significantly outperforms existing zero-shot methods. We achieve a 66% Success Rate (SR) on R2R-CE and 50.8% SR on RxR-CE benchmarks. Physical deployment on a Hello Robot further confirms the efficiency and efficacy of our framework, achieving a 52% SR in challenging real-world settings.
- Abstract(参考訳): Vision-and-Language Navigation (VLN)は最近、ゼロショットナビゲーションを可能にするMultimodal Large Language Models (MLLM)の恩恵を受けている。
近年の探究に基づくゼロショット手法は,グローバルなシーン先行の活用による有望な成果を示しているが,現実のロボットの展開には不十分な,高品質な人為的なシーン再構築に頼っている。
目に見えない環境に遭遇するときは、ロボットは事前探索によって独自の事前情報を構築する必要がある。
しかし、これらの自己再建は必然的に不完全で騒々しいものであり、高品質なシーン再構築に依存する方法が著しく劣化している。
これらの問題に対処するために,不完全な自己再構成と堅牢な実行のギャップを埋めるために設計されたゼロショットナビゲーションフレームワークであるSpatialAntを提案する。
SpaceAntは、モノクラーリコンストラクションのための絶対測度スケールを回復するための物理接地戦略を導入している。
さらに,ノイズの多い自己再構成シーンを絶対的な空間参照として扱うのではなく,新しい視覚予測機構を提案する。
このメカニズムはノイズの多い点雲を利用して将来の観測をレンダリングし、エージェントは人間の指示に反する偽の推論や不規則な経路を実行できる。
シミュレーションと実世界の両方の環境における大規模な実験は、SpatialAntが既存のゼロショット法を大幅に上回っていることを示している。
我々はR2R-CEで66%の成功率(SR)、RxR-CEベンチマークで50.8%のSRを達成する。
Hello Robotへの物理的なデプロイは、我々のフレームワークの効率性と有効性をさらに確認し、現実世界の環境に挑戦する上で、52%のSRを達成する。
関連論文リスト
- RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution [32.93468341343403]
我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。
Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。
我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
論文 参考訳(メタデータ) (2026-02-13T07:30:43Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。
本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-01-25T17:50:05Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。