論文の概要: AgenticDiffusion: Agentic Diffusion-based Path Planning for Vision-Based UAV Navigation
- arxiv url: http://arxiv.org/abs/2606.04111v1
- Date: Tue, 02 Jun 2026 18:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.318739
- Title: AgenticDiffusion: Agentic Diffusion-based Path Planning for Vision-Based UAV Navigation
- Title(参考訳): エージェント拡散:視覚に基づくUAVナビゲーションのためのエージェント拡散に基づく経路計画
- Authors: Faryal Batool, Muhammad Ahsan Mustafa, Fawad Mehboob, Valerii Serpiva, Dzmitry Tsetserukou,
- Abstract要約: 屋内UAVナビゲーションは、視野の限られた観測下での効率的な探索、シーン理解、信頼性の高い軌道実行を必要とする。
本稿では,多視点UAVナビゲーションフレームワークであるAgenticDiffusionを提案する。
このフレームワークは、適応的な視点選択、多段階のミッション実行、長距離ナビゲーション、安全な着陸場所選択を含む4つの現実のUAVナビゲーションシナリオで検証された。
- 参考スコア(独自算出の注目度): 2.186077977059593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Indoor UAV navigation requires efficient exploration, scene understanding, and reliable trajectory execution under limited field-of-view observations. Existing vision-based navigation frameworks typically rely on single-view observations, limiting their ability to reason about occlusions, target visibility, and global scene structure. In this work, we propose AgenticDiffusion, a multi-view UAV navigation framework that coordinates language-guided reasoning, open-vocabulary target grounding, vision-based diffusion planning, and NMPC within a unified aerial navigation pipeline. Given a natural language instruction and synchronized first-person-view (FPV) and top-view observations, the framework determines the most informative viewpoint for navigation and generates a mission plan prior to trajectory execution. The targets are localized using an open-vocabulary grounding model, after which viewpoint-specific diffusion planners generate navigation trajectories for UAV execution. Using complementary viewpoints, the proposed framework reduces repeated target exploration and improves navigation efficiency in cluttered indoor environments. The framework was validated in four real-world UAV navigation scenarios involving adaptive viewpoint selection, multi-stage mission execution, long-horizon navigation, and safe landing-site selection. The experimental results demonstrated an overall mission success rate of 80% in 40 real-world trials, while the diffusion planners achieved a trajectory generation success rate of 100%.
- Abstract(参考訳): 屋内UAVナビゲーションは、視野の限られた観測下での効率的な探索、シーン理解、信頼性の高い軌道実行を必要とする。
既存の視覚ベースのナビゲーションフレームワークは、通常は単一視点の観察に依存しており、閉塞性、ターゲット視認性、グローバルなシーン構造について推論する能力を制限する。
本研究では,多視点UAVナビゲーションフレームワークであるAgenticDiffusionを提案する。
自然言語の指示と一対一の視点(FPV)とトップビューの観察を与えられたフレームワークは、ナビゲーションの最も有益な視点を決定し、軌道実行の前にミッションプランを生成する。
ターゲットはオープンボキャブラリグラウンドモデルを用いてローカライズされ、その後、視点特異的拡散プランナーがUAV実行のためのナビゲーショントラジェクトリを生成する。
相補的な視点を用いて、提案手法は反復的な目標探索を減らし、乱れた屋内環境における航法効率を向上させる。
このフレームワークは、適応的な視点選択、多段階のミッション実行、長距離ナビゲーション、安全な着陸場所選択を含む4つの現実のUAVナビゲーションシナリオで検証された。
実験の結果、実際の40回の試験で全体のミッション成功率は80%、拡散プランナーは軌道生成成功率は100%であった。
関連論文リスト
- Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation [51.286599397552756]
本稿では,UAVの絶対位置と近距離からの進路を共同で予測する視覚駆動型クロスビューナビゲーション手法であるBering-UAVを提案する。
我々はまた、クロスビューのローカライゼーションとナビゲーションを評価するベンチマークである Bearing-UAV-90k も提示する。
論文 参考訳(メタデータ) (2026-03-23T16:17:39Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。
既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。
この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T09:16:07Z) - UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [17.86691411018085]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。
多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。
1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文 参考訳(メタデータ) (2025-08-01T03:23:06Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。