Fugu-MT 論文翻訳(概要): AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

論文の概要: AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

arxiv url: http://arxiv.org/abs/2602.09657v1
Date: Tue, 10 Feb 2026 11:08:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.319795
Title: AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild
Title（参考訳）: AutoFly:野生における無人無人航法のためのビジョン・ランゲージ・アクションモデル
Authors: Xiaolou Sun, Wufei Si, Wenhui Ni, Yuntian Li, Dongming Wu, Fei Xie, Runwei Guan, He-Yang Xu, Henghui Ding, Yuan Wu, Yutao Yue, Yongming Huang, Hui Xiong,
Abstract要約: 視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
参考スコア（独自算出の注目度）: 62.47761809929869
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language navigation (VLN) requires intelligent agents to navigate environments by interpreting linguistic instructions alongside visual observations, serving as a cornerstone task in Embodied AI. Current VLN research for unmanned aerial vehicles (UAVs) relies on detailed, pre-specified instructions to guide the UAV along predetermined routes. However, real-world outdoor exploration typically occurs in unknown environments where detailed navigation instructions are unavailable. Instead, only coarse-grained positional or directional guidance can be provided, requiring UAVs to autonomously navigate through continuous planning and obstacle avoidance. To bridge this gap, we propose AutoFly, an end-to-end Vision-Language-Action (VLA) model for autonomous UAV navigation. AutoFly incorporates a pseudo-depth encoder that derives depth-aware features from RGB inputs to enhance spatial reasoning, coupled with a progressive two-stage training strategy that effectively aligns visual, depth, and linguistic representations with action policies. Moreover, existing VLN datasets have fundamental limitations for real-world autonomous navigation, stemming from their heavy reliance on explicit instruction-following over autonomous decision-making and insufficient real-world data. To address these issues, we construct a novel autonomous navigation dataset that shifts the paradigm from instruction-following to autonomous behavior modeling through: (1) trajectory collection emphasizing continuous obstacle avoidance, autonomous planning, and recognition workflows; (2) comprehensive real-world data integration. Experimental results demonstrate that AutoFly achieves a 3.9% higher success rate compared to state-of-the-art VLA baselines, with consistent performance across simulated and real environments.
Abstract（参考訳）: 視覚言語ナビゲーション(VLN)では、視覚的な観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要があり、Embodied AIの基盤となるタスクとして機能する。無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細で規定された指示に依存している。しかし、実際の屋外探索は通常、詳細なナビゲーション命令が利用できない未知の環境で行われる。代わりに、UAVが継続的な計画と障害物回避を通じて自律的にナビゲートする必要があるため、粗い位置または方向指示しか提供できない。このギャップを埋めるために、自律型UAVナビゲーションのためのエンドツーエンドのVision-Language-Action(VLA)モデルであるAutoFlyを提案する。 AutoFlyは、空間推論を強化するためにRGB入力から深度認識特徴を導出する擬似深度エンコーダと、視覚、深度、言語表現をアクションポリシーと効果的に整合させるプログレッシブ2段階のトレーニング戦略を組み込んでいる。さらに、既存のVLNデータセットは、自律的な意思決定と不十分な実世界のデータに対する明示的な命令フォローに大きく依存していることから、現実の自律ナビゲーションに基本的な制限がある。これらの課題に対処するため,我々は,(1)連続的な障害物回避,自律計画,認識ワークフローを強調する軌道収集,(2)包括的な実世界のデータ統合などを通じて,パラダイムを命令追従から自律行動モデリングにシフトする,新たな自律ナビゲーションデータセットを構築した。実験の結果、AutoFlyは最先端のVLAベースラインよりも3.9%高い成功率を実現し、シミュレーションと実環境をまたいだ一貫したパフォーマンスを実現している。

関連論文リスト

AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control [20.1849703990752]
無人航空機(UAV)のための視覚言語ナビゲーション(VLN)は複雑な視覚的解釈と3D環境の連続的な制御を必要とする。 AerialVLAは、生の視覚観察とファジィ言語指示を直接連続的な物理制御信号にマッピングする、最小限のエンドツーエンドビジョン・ランゲージ・アクション・フレームワークである。
論文参考訳（メタデータ） (2026-03-15T13:02:13Z)
OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文参考訳（メタデータ） (2026-03-05T17:02:22Z)
VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。 VLingNav(VLAモデル)を提案する。
論文参考訳（メタデータ） (2026-01-13T15:43:43Z)
AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文参考訳（メタデータ） (2025-11-26T04:44:27Z)
UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [17.86691411018085]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。 1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文参考訳（メタデータ） (2025-08-01T03:23:06Z)
Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文参考訳（メタデータ） (2025-06-12T14:40:50Z)
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。 UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文参考訳（メタデータ） (2025-04-30T08:40:47Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。