論文の概要: HTNav: A Hybrid Navigation Framework with Tiered Structure for Urban Aerial Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2604.08883v1
- Date: Fri, 10 Apr 2026 02:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.646617
- Title: HTNav: A Hybrid Navigation Framework with Tiered Structure for Urban Aerial Vision-and-Language Navigation
- Title(参考訳): HTNav: 都市空の視覚・言語ナビゲーションのための階層構造を持つハイブリッドナビゲーションフレームワーク
- Authors: Chengjie Fan, Cong Pan, Zijian Liu, Ningzhong Liu, Jie Qin,
- Abstract要約: 我々はImitation Learning(IL)とReinforcement Learning(RL)を統合した新しい協調ナビゲーションフレームワークを提案する。
階層化決定機構を統合することにより,マクロレベルの経路計画ときめ細かい動作制御の協調的な相互作用を実現する。
CityNav のベンチマークでは,すべての場面で最先端のパフォーマンスとタスクの難しさを実現している。
- 参考スコア(独自算出の注目度): 32.83217376472449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the general Vision-and-Language Navigation (VLN) task, aerial VLN has attracted widespread attention, owing to its significant practical value in applications such as logistics delivery and urban inspection. However, existing methods face several challenges in complex urban environments, including insufficient generalization to unseen scenes, suboptimal performance in long-range path planning, and inadequate understanding of spatial continuity. To address these challenges, we propose HTNav, a new collaborative navigation framework that integrates Imitation Learning (IL) and Reinforcement Learning (RL) within a hybrid IL-RL framework. This framework adopts a staged training mechanism to ensure the stability of the basic navigation strategy while enhancing its environmental exploration capability. By integrating a tiered decision-making mechanism, it achieves collaborative interaction between macro-level path planning and fine-grained action control. Furthermore, a map representation learning module is introduced to deepen its understanding of spatial continuity in open domains. On the CityNav benchmark, our method achieves state-of-the-art performance across all scene levels and task difficulties. Experimental results demonstrate that this framework significantly improves navigation precision and robustness in complex urban environments.
- Abstract(参考訳): 一般的なVLN(Vision-and-Language Navigation)タスクにインスパイアされた航空VLNは、ロジスティクスの配送や都市検査などの応用において重要な実用的価値のために、広く注目を集めている。
しかし、既存の手法では、見えないシーンへの一般化の不十分、長距離経路計画における最適以下の性能、空間的連続性の不十分な理解など、複雑な都市環境においていくつかの課題に直面している。
これらの課題に対処するため,Imitation Learning (IL)とReinforcement Learning (RL)をハイブリッドIL-RLフレームワークに統合した新しい協調ナビゲーションフレームワークであるHTNavを提案する。
本フレームワークは,環境探索能力を高めつつ,基本的なナビゲーション戦略の安定性を確保するための段階的なトレーニング機構を採用する。
階層化決定機構を統合することにより,マクロレベルの経路計画ときめ細かい動作制御の協調的な相互作用を実現する。
さらに、オープンドメインにおける空間連続性の理解を深めるために、マップ表現学習モジュールを導入する。
CityNav のベンチマークでは,すべての場面で最先端のパフォーマンスとタスクの難しさを実現している。
実験により, この枠組みは複雑な都市環境における航法精度とロバスト性を大幅に向上させることが示された。
関連論文リスト
- SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation [46.34939555586507]
我々は,現実世界のクロスエボデーメント展開のための3レベルObjectNavシステムであるSysNavを紹介する。
SysNavはセマンティック推論、ナビゲーション計画、モーションコントロールを分離し、堅牢性と一般化性を保証する。
本システムは,成功率と航法効率の両面で大幅に向上する。
論文 参考訳(メタデータ) (2026-03-06T22:20:51Z) - OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - RAGNav: A Retrieval-Augmented Topological Reasoning Framework for Multi-Goal Visual-Language Navigation [1.7508558850131373]
Vision-Language Navigation (VLN) は、シングルポイントパスフィンディングからより挑戦的なMulti-Goal VLNへと進化している。
RAGNavは意味論的推論と物理的構造の間のギャップを埋めるフレームワークである。
論文 参考訳(メタデータ) (2026-03-04T05:31:33Z) - Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation [0.0]
深部強化学習(HMP-DRL)によるハイブリッド運動計画
状態空間と報酬関数の両方に符号化されたチェックポイントのシーケンスを通じて、局所DRLポリシーに統合されたパスを生成するグラフベースのグローバルプランナを提案する。
社会的コンプライアンスを確保するため、地域プランナーは、周辺エージェントのセマンティックタイプに基づいて、安全マージンと罰則を動的に調整するエンティティ対応報酬構造を採用する。
論文 参考訳(メタデータ) (2025-12-31T05:58:57Z) - NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments [67.18144414660681]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、自然言語命令によって誘導される複雑な環境において、エージェントがシーケンシャルなナビゲーションアクションを実行する必要がある。
人間の認知にインスパイアされたNavMorphは、VLN-CEタスクにおける環境理解と意思決定を強化する自己進化型世界モデルフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T02:20:00Z) - CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文 参考訳(メタデータ) (2025-05-08T20:01:35Z) - Hierarchical Reinforcement Learning for Safe Mapless Navigation with Congestion Estimation [7.339743259039457]
本稿では,階層的強化学習(HRL)を利用した安全な地図レスナビゲーションフレームワークを提案する。
その結果,HRLに基づくナビゲーションフレームワークは静的シナリオと動的シナリオの両方で優れていることがわかった。
本研究では,物理的な検証実験を行うために,TurtleBot3ロボット上にHRLベースのナビゲーションフレームワークを実装した。
論文 参考訳(メタデータ) (2025-03-15T08:03:50Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。