論文の概要: APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation
- arxiv url: http://arxiv.org/abs/2602.00551v1
- Date: Sat, 31 Jan 2026 06:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.252758
- Title: APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation
- Title(参考訳): APEX: 非同期空中目標ナビゲーションのための分離メモリベースのエクスプローラー
- Authors: Daoxuan Zhang, Ping Chen, Xiaobo Xia, Xiu Su, Ruichen Zhen, Jianqiang Xiao, Shuo Yang,
- Abstract要約: Embodied AIの挑戦的なフロンティアであるAerial Object Goal Navigationでは、無人航空機(UAV)エージェントが視覚的知覚と言語記述のみを使用して、特定のターゲットを自律的に探索、推論、識別する必要がある。
既存の手法は、大気環境における複雑な空間表現の記憶、信頼性と解釈可能な行動決定、非効率な探索と情報収集に苦慮している。
我々は,複雑な空中環境下での効率的な探索と目標獲得を目的とした,新しい階層型エージェントであるtextAPEXを紹介した。
- 参考スコア(独自算出の注目度): 26.546610806602803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial Object Goal Navigation, a challenging frontier in Embodied AI, requires an Unmanned Aerial Vehicle (UAV) agent to autonomously explore, reason, and identify a specific target using only visual perception and language description. However, existing methods struggle with the memorization of complex spatial representations in aerial environments, reliable and interpretable action decision-making, and inefficient exploration and information gathering. To address these challenges, we introduce \textbf{APEX} (Aerial Parallel Explorer), a novel hierarchical agent designed for efficient exploration and target acquisition in complex aerial settings. APEX is built upon a modular, three-part architecture: 1) Dynamic Spatio-Semantic Mapping Memory, which leverages the zero-shot capability of a Vision-Language Model (VLM) to dynamically construct high-resolution 3D Attraction, Exploration, and Obstacle maps, serving as an interpretable memory mechanism. 2) Action Decision Module, trained with reinforcement learning, which translates this rich spatial understanding into a fine-grained and robust control policy. 3) Target Grounding Module, which employs an open-vocabulary detector to achieve definitive and generalizable target identification. All these components are integrated into a hierarchical, asynchronous, and parallel framework, effectively bypassing the VLM's inference latency and boosting the agent's proactivity in exploration. Extensive experiments show that APEX outperforms the previous state of the art by +4.2\% SR and +2.8\% SPL on challenging UAV-ON benchmarks, demonstrating its superior efficiency and the effectiveness of its hierarchical asynchronous design. Our source code is provided in \href{https://github.com/4amGodvzx/apex}{GitHub}
- Abstract(参考訳): Embodied AIの挑戦的なフロンティアであるAerial Object Goal Navigationでは、無人航空機(UAV)エージェントが視覚的知覚と言語記述のみを使用して、特定のターゲットを自律的に探索、推論、識別する必要がある。
しかし,既存の手法では,大気環境における複雑な空間表現の記憶,信頼性と解釈可能な行動決定,非効率な探索と情報収集に苦慮している。
これらの課題に対処するために,複雑な空域環境下での効率的な探索と目標獲得を目的とした,新しい階層型エージェントであるtextbf{APEX} (Aerial Parallel Explorer)を紹介した。
APEXはモジュラーで3部構成のアーキテクチャの上に構築されています。
1) VLM(Vision-Language Model)のゼロショット機能を利用して,高分解能な3Dアトラクション,探索,障害物マップを動的に構築し,解釈可能なメモリ機構として機能する動的空間空間空間マッピングメモリ。
2)強化学習で訓練された行動決定モジュールは,この豊かな空間的理解をきめ細粒度かつ堅牢な制御ポリシに変換する。
3) 決定的かつ一般化可能な目標識別を実現するために,開語彙検出器を用いた目標接地モジュール。
これらのコンポーネントはすべて階層的で非同期で並列なフレームワークに統合され、VLMの推論遅延を効果的に回避し、探索におけるエージェントの能率を高める。
大規模な実験では、APEXはUAV-ONベンチマークに挑戦する上で、+4.2\% SRと+2.8\% SPLで以前の最先端技術よりも優れており、その優れた効率と階層的非同期設計の有効性を示している。
我々のソースコードは \href{https://github.com/4amGodvzx/apex}{GitHub} で提供されている。
関連論文リスト
- FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [17.86691411018085]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。
多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。
1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文 参考訳(メタデータ) (2025-08-01T03:23:06Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology [26.90429412601702]
都市オブジェクトの自律検索のための最初のベンチマークデータセットであるCityAVOSを紹介する。
このデータセットは、6つのオブジェクトカテゴリにまたがる2,420のタスクで構成され、難易度は様々である。
また,人間の3層認知を模倣したマルチモーダルな大規模言語モデル(MLLM)を用いたエージェント手法であるRPPSearcherを提案する。
論文 参考訳(メタデータ) (2025-05-13T17:34:54Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。