論文の概要: AERR-Nav: Adaptive Exploration-Recovery-Reminiscing Strategy for Zero-Shot Object Navigation
- arxiv url: http://arxiv.org/abs/2603.17712v1
- Date: Wed, 18 Mar 2026 13:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.721804
- Title: AERR-Nav: Adaptive Exploration-Recovery-Reminiscing Strategy for Zero-Shot Object Navigation
- Title(参考訳): AERR-Nav: ゼロショットオブジェクトナビゲーションのための適応的探索・回収・記憶戦略
- Authors: Jingzhi Huang, Junkai Huang, Haoyang Yang, Haoang Li, Yi Wang,
- Abstract要約: AERR-Navはゼロショットオブジェクトナビゲーションフレームワークで、ロボットの環境に基づいて状態を動的に調整する。
AERR-Navはゼロショット法で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 12.039265264982928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Object Navigation (ZSON) in unknown multi-floor environments presents a significant challenge. Recent methods, mostly based on semantic value greedy waypoint selection, spatial topology-enhanced memory, and Multimodal Large Language Model (MLLM) as a decision-making framework, have led to improvements. However, these architectures struggle to balance exploration and exploitation for ZSON when encountering unseen environments, especially in multi-floor settings, such as robots getting stuck at narrow intersections, endlessly wandering, or failing to find stair entrances. To overcome these challenges, we propose AERR-Nav, a Zero-Shot Object Navigation framework that dynamically adjusts its state based on the robot's environment. Specifically, AERR-Nav has the following two key advantages: (1) An Adaptive Exploration-Recovery-Reminiscing Strategy, enables robots to dynamically transition between three states, facilitating specialized responses to diverse navigation scenarios. (2) An Adaptive Exploration State featuring Fast and Slow-Thinking modes helps robots better balance exploration, exploitation, and higher-level reasoning based on evolving environmental information. Extensive experiments on the HM3D and MP3D benchmarks demonstrate that our AERR-Nav achieves state-of-the-art performance among zero-shot methods. Comprehensive ablation studies further validate the efficacy of our proposed strategy and modules.
- Abstract(参考訳): 未知のマルチフロア環境におけるゼロショットオブジェクトナビゲーション(ZSON)は重要な課題である。
近年の手法は,主に意味的値の欲求的ウェイポイント選択,空間トポロジ強化メモリ,意思決定フレームワークとしてのマルチモーダル大言語モデル(MLLM)が改良されている。
しかし、これらのアーキテクチャは、特に狭い交差点でロボットが立ち往生したり、無限にさまよったり、階段の入り口を見つけるのに失敗したりといった、目に見えない環境に遭遇する際のZSONの探索と利用のバランスをとるのに苦労している。
これらの課題を克服するために,ロボットの環境に基づいて動的に状態を調整するZero-Shot Object NavigationフレームワークであるAERR-Navを提案する。
特に、AERR-Navには、次の2つの大きな利点がある。 1) 適応探索-回復-記憶戦略は、ロボットが3つの状態間の動的移行を可能にし、多様なナビゲーションシナリオに対する特別な応答を促進する。
2) 高速・スローシンキングモードを特徴とする適応的探索状態は, 環境情報の進化に基づく探索, 搾取, 高レベルの推論のバランス改善に役立つ。
HM3D と MP3D ベンチマークの大規模な実験により、我々の AERR-Nav がゼロショット法で最先端の性能を達成することを示した。
包括的アブレーション研究により,提案した戦略およびモジュールの有効性がさらに検証された。
関連論文リスト
- APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation [26.546610806602803]
Embodied AIの挑戦的なフロンティアであるAerial Object Goal Navigationでは、無人航空機(UAV)エージェントが視覚的知覚と言語記述のみを使用して、特定のターゲットを自律的に探索、推論、識別する必要がある。
既存の手法は、大気環境における複雑な空間表現の記憶、信頼性と解釈可能な行動決定、非効率な探索と情報収集に苦慮している。
我々は,複雑な空中環境下での効率的な探索と目標獲得を目的とした,新しい階層型エージェントであるtextAPEXを紹介した。
論文 参考訳(メタデータ) (2026-01-31T06:27:57Z) - RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation [9.379574254353352]
RANGERは、モノクロカメラのみを使用して動作する、ゼロショットでオープンなセマンティックナビゲーションフレームワークである。
新しい環境の短いビデオを単純に観察することで、アーキテクチャの変更や微調整を必要とせずにタスク効率を大幅に改善することができる。
HM3Dベンチマークと実世界の環境実験により、RANGERは航法成功率と探索効率の点で競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-12-30T13:25:22Z) - STRIDER: Navigation via Instruction-Aligned Structural Decision Space Optimization [73.98141357780032]
VLN-CEタスクでは、エージェントはシーン固有のトレーニングなしで自然言語命令を使用して3D環境をナビゲートする必要がある。
既存の方法は、構造化された意思決定の欠如と、以前の行動からのフィードバックの不十分な統合のために、堅牢なナビゲーションを達成できないことが多い。
STRIDERは,空間配置先と動的タスクフィードバックを統合し,エージェントの決定空間を体系的に最適化する新しいフレームワークである。
提案手法では,1)空間構造を介して行動空間を制約する構造的ウェイポイントジェネレータ,2)タスクの進行に応じて行動を調整するタスク調整レギュレータ,そしてナビゲーション全体を通して意味的アライメントを確保する。
論文 参考訳(メタデータ) (2025-10-27T04:37:21Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - TopoNav: Topological Navigation for Efficient Exploration in Sparse Reward Environments [0.6597195879147555]
TopoNavは、スパース・リワード設定における効率的な目標指向の探索とナビゲーションのための新しいフレームワークである。
TopoNavは環境のトポロジカルマップを動的に構築し、主要な場所と経路をキャプチャする。
本研究では,Clearpath Jackalロボットを用いて,シミュレーションと実世界のオフロード環境におけるTopoNavの評価を行った。
論文 参考訳(メタデータ) (2024-02-06T15:05:25Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。