論文の概要: NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions
- arxiv url: http://arxiv.org/abs/2510.08173v1
- Date: Thu, 09 Oct 2025 12:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.080903
- Title: NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions
- Title(参考訳): NavSpace:ナビゲーションエージェントが空間知の指示をフォローする方法
- Authors: Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong,
- Abstract要約: タスクカテゴリと1,228のトラジェクトリ-インストラクションペアを含むNavSpaceベンチマークを導入する。
我々は、最先端ナビゲーションモデルやマルチモーダル大言語モデルを含む22のナビゲーションエージェントを包括的に評価する。
本稿では,空間知的なナビゲーションモデルSNavを提案する。
- 参考スコア(独自算出の注目度): 31.144783513493433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-following navigation is a key step toward embodied intelligence. Prior benchmarks mainly focus on semantic understanding but overlook systematically evaluating navigation agents' spatial perception and reasoning capabilities. In this work, we introduce the NavSpace benchmark, which contains six task categories and 1,228 trajectory-instruction pairs designed to probe the spatial intelligence of navigation agents. On this benchmark, we comprehensively evaluate 22 navigation agents, including state-of-the-art navigation models and multimodal large language models. The evaluation results lift the veil on spatial intelligence in embodied navigation. Furthermore, we propose SNav, a new spatially intelligent navigation model. SNav outperforms existing navigation agents on NavSpace and real robot tests, establishing a strong baseline for future work.
- Abstract(参考訳): 指示追従ナビゲーションは、インテリジェンスを具現化するための重要なステップである。
以前のベンチマークは主に意味理解に焦点を当てていたが、ナビゲーションエージェントの空間認識と推論能力を体系的に評価する見落としていた。
そこで本研究では,ナビゲーションエージェントの空間知能を探索するための6つのタスクカテゴリと1,228の軌道指示ペアを含むNavSpaceベンチマークを提案する。
このベンチマークでは、最先端ナビゲーションモデルやマルチモーダル大言語モデルを含む22のナビゲーションエージェントを総合的に評価する。
評価結果は, 具体化ナビゲーションにおける空間知性に関するベールを引き上げる。
さらに,空間知的なナビゲーションモデルSNavを提案する。
SNavは、NavSpaceや実際のロボットテストで既存のナビゲーションエージェントよりも優れており、将来の作業の強力なベースラインを確立している。
関連論文リスト
- NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation [66.89717229608358]
NAVCONは2つの一般的なデータセット(R2RとRxR)の上に構築された大規模な注釈付きビジョンランゲージナビゲーション(VLN)コーパスである。
論文 参考訳(メタデータ) (2024-12-17T15:48:25Z) - InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。
InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。
InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文 参考訳(メタデータ) (2024-06-07T12:26:34Z) - Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied
Scenarios [66.05091704671503]
本稿では、ポイントツーポイントナビゲーションタスクにおける飛行偏差に対処する新しい角度ナビゲーションパラダイムを提案する。
また、Adaptive Feature Enhance Module、Cross-knowledge Attention-guided Module、Robust Task-oriented Head Moduleを含むモデルを提案する。
論文 参考訳(メタデータ) (2024-02-04T08:41:20Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Deep Learning-based Spacecraft Relative Navigation Methods: A Survey [3.964047152162558]
本調査は,現在の深層学習に基づく自律型宇宙船の相対航法について検討することを目的としている。
宇宙船のランデブーや小さな天体や月への着陸など、具体的な軌道の応用に焦点を当てている。
論文 参考訳(メタデータ) (2021-08-19T18:54:19Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。