論文の概要: OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency
- arxiv url: http://arxiv.org/abs/2603.10682v1
- Date: Wed, 11 Mar 2026 11:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.680105
- Title: OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency
- Title(参考訳): OnFly:オンボードゼロショット空中視界ナビゲーションの安全性と効率性
- Authors: Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou,
- Abstract要約: ゼロショットAVLNのためのフルオンボードリアルタイムフレームワークOnFlyを提案する。
OnFlyは、低周波進行監視から高周波目標生成を分離する、共有パーセプション二重エージェントアーキテクチャを採用している。
シミュレーションでは、OnFlyは最強の最先端ベースラインと比較してタスク成功率を26.4%から67.8%に改善している。
- 参考スコア(独自算出の注目度): 9.769964979769204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial vision-language navigation (AVLN) enables UAVs to follow natural-language instructions in complex 3D environments. However, existing zero-shot AVLN methods often suffer from unstable single-stream Vision-Language Model decision-making, unreliable long-horizon progress monitoring, and a trade-off between safety and efficiency. We propose OnFly, a fully onboard, real-time framework for zero-shot AVLN. OnFly adopts a shared-perception dual-agent architecture that decouples high-frequency target generation from low-frequency progress monitoring, thereby stabilizing decision-making. It further employs a hybrid keyframe-recent-frame memory to preserve global trajectory context while maintaining KV-cache prefix stability, enabling reliable long-horizon monitoring with termination and recovery signals. In addition, a semantic-geometric verifier refines VLM-predicted targets for instruction consistency and geometric safety using VLM features and depth cues, while a receding-horizon planner generates optimized collision-free trajectories under geometric safety constraints, improving both safety and efficiency. In simulation, OnFly improves task success from 26.4% to 67.8%, compared with the strongest state-of-the-art baseline, while fully onboard real-world flights validate its feasibility for real-time deployment. The code will be released at https://github.com/Robotics-STAR-Lab/OnFly
- Abstract(参考訳): 空中視覚言語ナビゲーション(AVLN)により、UAVは複雑な3D環境で自然言語の指示に従うことができる。
しかし、既存のゼロショットAVLN法は、不安定な単一ストリームビジョンランゲージモデル決定、信頼性の低い長距離進行監視、安全性と効率のトレードオフに悩まされることが多い。
ゼロショットAVLNのためのフルオンボードリアルタイムフレームワークOnFlyを提案する。
OnFlyは、低周波進行監視から高周波目標生成を分離し、意思決定を安定化する、共有パーセプション二重エージェントアーキテクチャを採用している。
さらに、KV-cacheプレフィックスの安定性を維持しながら、グローバルなトラジェクトリコンテキストを維持するために、ハイブリッドキーフレーム・レイトフレームメモリを採用し、終端とリカバリ信号による信頼性の高いロングホライゾン監視を可能にする。
さらに、セマンティック幾何検証器は、VLMの特徴と深度を用いた命令整合性と幾何安全性のためのVLM予測目標を洗練し、後退水平プランナーは幾何学的安全制約の下で最適化された衝突のない軌道を生成し、安全性と効率を両立させる。
シミュレーションでは、OnFlyは最先端のベースラインと比較してタスク成功率を26.4%から67.8%に改善し、実際の飛行はリアルタイム展開の可能性を検証する。
コードはhttps://github.com/Robotics-STAR-Lab/OnFlyでリリースされる。
関連論文リスト
- AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments [12.689250855332569]
VLA-ANは、複雑な環境での自律ドローンナビゲーションに特化したフレームワークである。
既存の大型航法モデルの4つの大きな制限に対処する。
シングルタスクの成功率は98.1%に達する。
論文 参考訳(メタデータ) (2025-12-17T10:02:55Z) - Trajectory Design for UAV-Based Low-Altitude Wireless Networks in Unknown Environments: A Digital Twin-Assisted TD3 Approach [62.11847362756054]
低高度無線ネットワーク(LAWN)のキーイネーブラーとして無人航空機(UAV)が登場している
我々は、デジタルツイン(DT)支援トレーニングおよびデプロイメントフレームワークを提案する。
このフレームワークでは、UAVは統合されたセンシングと通信信号を送信し、地上ユーザーに通信サービスを提供し、同時にDTサーバにアップロードされたエコーを収集して、仮想環境(VE)を段階的に構築する。
これらのVEはモデルトレーニングを加速し、展開中のリアルタイムUAVセンシングデータを継続的に更新し、意思決定をサポートし、飛行安全性を向上する。
論文 参考訳(メタデータ) (2025-10-28T10:05:53Z) - When UAV Swarm Meets IRS: Collaborative Secure Communications in Low-altitude Wireless Networks [68.45202147860537]
低高度無線ネットワーク (LAWN) は、多様なアプリケーションに対して、拡張されたカバレッジ、信頼性、スループットを提供する。
これらのネットワークは、既知のおよび潜在的に未知の盗聴者の両方から重大なセキュリティ上の脆弱性に直面している。
本稿では,Swarm内で選択されたUAVを仮想アンテナアレイとして機能させる,LAWNのための新しいセキュア通信フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-25T02:02:14Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - ASMA: An Adaptive Safety Margin Algorithm for Vision-Language Drone Navigation via Scene-Aware Control Barrier Functions [9.645098673995317]
VLNを運用するドローンプラットフォームについて検討し、新しいシーン認識CBFを定式化することによって安全性を向上させる。
CBFのないベースラインシステムは、コマンドを順序づけられたランドマークのシーケンスに変換するために、モーダルな注意を持つビジョンランゲージを使用する。
ASMAは移動物体を追跡し、シーン認識CBF評価をオンザフライで実行し、追加の制約として機能する。
論文 参考訳(メタデータ) (2024-09-16T13:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。