論文の概要: Bridging the Indoor-Outdoor Gap: Vision-Centric Instruction-Guided Embodied Navigation for the Last Meters
- arxiv url: http://arxiv.org/abs/2602.06427v1
- Date: Fri, 06 Feb 2026 06:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.265357
- Title: Bridging the Indoor-Outdoor Gap: Vision-Centric Instruction-Guided Embodied Navigation for the Last Meters
- Title(参考訳): 屋内のギャップを埋める:最後のメーターのための視覚中心的指導ガイド付き体操ナビゲーション
- Authors: Yuxiang Zhao, Yirong Yang, Yanqing Zhu, Yanfen Shen, Chiyu Wang, Zhining Gu, Pei Shi, Wei Guo, Mu Xu,
- Abstract要約: Embodied Navigationは、ラストマイル配信のような現実世界のアプリケーションにとって大きな約束である。
そこで本研究では,事前自由なインストラクション駆動型インボダイドナビゲーションという,新しいタスクを紹介する。
本稿では、画像に基づくプロンプトを利用して意思決定を行う視覚中心の具体化ナビゲーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.804644839559736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied navigation holds significant promise for real-world applications such as last-mile delivery. However, most existing approaches are confined to either indoor or outdoor environments and rely heavily on strong assumptions, such as access to precise coordinate systems. While current outdoor methods can guide agents to the vicinity of a target using coarse-grained localization, they fail to enable fine-grained entry through specific building entrances, critically limiting their utility in practical deployment scenarios that require seamless outdoor-to-indoor transitions. To bridge this gap, we introduce a novel task: out-to-in prior-free instruction-driven embodied navigation. This formulation explicitly eliminates reliance on accurate external priors, requiring agents to navigate solely based on egocentric visual observations guided by instructions. To tackle this task, we propose a vision-centric embodied navigation framework that leverages image-based prompts to drive decision-making. Additionally, we present the first open-source dataset for this task, featuring a pipeline that integrates trajectory-conditioned video synthesis into the data generation process. Through extensive experiments, we demonstrate that our proposed method consistently outperforms state-of-the-art baselines across key metrics including success rate and path efficiency.
- Abstract(参考訳): Embodied Navigationは、ラストマイル配信のような現実世界のアプリケーションにとって大きな約束である。
しかし、既存のアプローチのほとんどは屋内または屋外の環境に限られており、正確な座標系へのアクセスのような強い仮定に大きく依存している。
現在の屋外方法は、粗粒度の局所化を用いてターゲットの近傍にエージェントを誘導するが、特定のビルの入り口を通るきめ細かい侵入を可能とせず、シームレスな屋外から屋内への遷移を必要とする実用的な配置シナリオにおいて、その実用性を著しく制限する。
このギャップを埋めるために、我々は新しいタスクを導入した。
この定式化は、正確な外部の事前への依存を明示的に排除し、エージェントは指示によって導かれる自我中心の視覚観察に基づいてナビゲートする必要がある。
この課題に対処するために,画像に基づくプロンプトを利用して意思決定を行う視覚中心型ナビゲーションフレームワークを提案する。
さらに,トラジェクティブ条件付きビデオ合成をデータ生成プロセスに統合したパイプラインを特徴とする,このタスクのための最初のオープンソースデータセットを提案する。
実験により,提案手法は成功率やパス効率などの主要な指標において,最先端のベースラインを一貫して上回ることを示す。
関連論文リスト
- Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale [90.91312440221306]
本稿では,自己改善デモを用いた目標言語誘導ナビゲーション学習手法であるSIDを提案する。
具体的には、SIDは環境からサンプリングされた最短経路データの初期エージェントを学習し、このエージェントを利用して新しい探索軌道を生成する。
この反復的な自己改善パイプラインは、新しい環境に容易に拡張できることを示し、その結果、様々な言語誘導ナビゲーションタスク間で実演を行うことができることを示す。
論文 参考訳(メタデータ) (2025-09-29T15:15:54Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - TOP-Nav: Legged Navigation Integrating Terrain, Obstacle and Proprioception Estimation [5.484041860401147]
TOP-Navは、包括的パスプランナーとTerran認識、Obstacle回避、クローズループプロプライオセプションを統合した、新しい脚付きナビゲーションフレームワークである。
そこで,TOP-Navは,従来の知識の分布を超えた地形や乱れをロボットが扱えるように,オープンワールドナビゲーションを実現する。
論文 参考訳(メタデータ) (2024-04-23T17:42:45Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous
Environments [48.898567402373324]
本研究では,連続した3次元環境下での言語誘導ナビゲーションタスクの開発を行う。
連続的な環境に配置することで、この設定は以前の作業で暗黙的に多くの仮定を持ち上げる。
論文 参考訳(メタデータ) (2020-04-06T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。