論文の概要: CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory
- arxiv url: http://arxiv.org/abs/2505.05622v1
- Date: Thu, 08 May 2025 20:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.072509
- Title: CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory
- Title(参考訳): CityNavAgent:階層的セマンティックプランニングとグローバルメモリによる航空ビジョンとランゲージナビゲーション
- Authors: Weichen Zhang, Chen Gao, Shiquan Yu, Ruiying Peng, Baining Zhao, Qian Zhang, Jinqiang Cui, Xinlei Chen, Yong Li,
- Abstract要約: 航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
- 参考スコア(独自算出の注目度): 39.76840258489023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial vision-and-language navigation (VLN), requiring drones to interpret natural language instructions and navigate complex urban environments, emerges as a critical embodied AI challenge that bridges human-robot interaction, 3D spatial reasoning, and real-world deployment. Although existing ground VLN agents achieved notable results in indoor and outdoor settings, they struggle in aerial VLN due to the absence of predefined navigation graphs and the exponentially expanding action space in long-horizon exploration. In this work, we propose \textbf{CityNavAgent}, a large language model (LLM)-empowered agent that significantly reduces the navigation complexity for urban aerial VLN. Specifically, we design a hierarchical semantic planning module (HSPM) that decomposes the long-horizon task into sub-goals with different semantic levels. The agent reaches the target progressively by achieving sub-goals with different capacities of the LLM. Additionally, a global memory module storing historical trajectories into a topological graph is developed to simplify navigation for visited targets. Extensive benchmark experiments show that our method achieves state-of-the-art performance with significant improvement. Further experiments demonstrate the effectiveness of different modules of CityNavAgent for aerial VLN in continuous city environments. The code is available at \href{https://github.com/VinceOuti/CityNavAgent}{link}.
- Abstract(参考訳): VLN(Aerial Vision-and-Language Navigation)は、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートすることを要求するもので、人間とロボットの相互作用、3D空間推論、実世界の展開を橋渡しする重要な具体的AIチャレンジとして出現する。
既存の地上VLNエージェントは、屋内および屋外で顕著な結果を得たが、事前に定義された航法グラフがなく、長距離探査において指数関数的に拡大する行動空間がないため、空中VLNに苦しんだ。
本研究では,都市空域VLNの航法複雑性を大幅に低減する大規模言語モデル (LLM) を用いたエージェントである \textbf{CityNavAgent} を提案する。
具体的には,階層型セマンティック・プランニング・モジュール(HSPM)を設計し,複数のセマンティック・レベルの異なるサブゴールに分割する。
LLMの異なる容量のサブゴールを達成して、エージェントが徐々に目標に達する。
さらに、過去の軌跡をトポロジカルグラフに格納するグローバルメモリモジュールを開発し、訪問対象のナビゲーションを簡単にする。
大規模なベンチマーク実験により,本手法は最先端の性能を著しく向上することを示した。
さらに, 連続都市環境における航空VLNに対するCityNavAgentの異なるモジュールの有効性を実証した。
コードは \href{https://github.com/VinceOuti/CityNavAgent}{link} で公開されている。
関連論文リスト
- NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation [15.628308089720269]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語コマンドを通じて複雑な視覚環境をナビゲートできるようにすることを目的としている。
本研究では,大規模な視覚言語モデルによって駆動される初の都市型UAV実施ナビゲーションモデルであるNavAgentを提案する。
我々は、きめ細かいランドマークを識別し、言語化できるランドマークの視覚認識器を構築した。
NavAgent-Landmark2Kは、ランドマークのための視覚認識装置を訓練するために、実際の街路シーンのための、最初のきめ細かいランドマークデータセットである。
論文 参考訳(メタデータ) (2024-11-13T12:51:49Z) - Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning [48.33405770713208]
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして導入する,航空VLNタスクのエンドツーエンドフレームワークを提案する。
我々は, LLMの空間的推論能力を高めるために, セマンティック・トポ・メトリック表現(STMR)を開発した。
実環境およびシミュレーション環境で行った実験は,本手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information [25.51740922661166]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、視覚的および言語的手がかりを統合することで、現実の環境を通して自律的なエージェントを誘導することを目的としている。
実都市の3次元環境における言語誘導型航法用に明示的に設計された新しいデータセットであるCityNavを紹介する。
CityNavは、新たに開発されたWebベースの3Dシミュレータを通じて収集された、人間の実証軌道と組み合わせた32kの自然言語記述で構成されている。
論文 参考訳(メタデータ) (2024-06-20T12:08:27Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文 参考訳(メタデータ) (2023-08-13T09:55:04Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。