論文の概要: SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments
- arxiv url: http://arxiv.org/abs/2507.06564v1
- Date: Wed, 09 Jul 2025 05:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.484777
- Title: SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments
- Title(参考訳): SkyVLN:都市環境におけるUAVの視覚・言語ナビゲーションとNMPC制御
- Authors: Tianshun Li, Tianyi Huai, Zhen Li, Yichun Gao, Haoang Li, Xinhu Zheng,
- Abstract要約: 無人航空機(UAV)は、移動性と適応性によって、様々な分野にまたがって多用途のツールとして登場した。
本稿では,複雑な都市環境下でのUAV自律性を高めるために,VLNとモデル予測制御(NMPC)を統合した新しいフレームワークであるSkyVLNを紹介する。
- 参考スコア(独自算出の注目度): 7.251041314934871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Aerial Vehicles (UAVs) have emerged as versatile tools across various sectors, driven by their mobility and adaptability. This paper introduces SkyVLN, a novel framework integrating vision-and-language navigation (VLN) with Nonlinear Model Predictive Control (NMPC) to enhance UAV autonomy in complex urban environments. Unlike traditional navigation methods, SkyVLN leverages Large Language Models (LLMs) to interpret natural language instructions and visual observations, enabling UAVs to navigate through dynamic 3D spaces with improved accuracy and robustness. We present a multimodal navigation agent equipped with a fine-grained spatial verbalizer and a history path memory mechanism. These components allow the UAV to disambiguate spatial contexts, handle ambiguous instructions, and backtrack when necessary. The framework also incorporates an NMPC module for dynamic obstacle avoidance, ensuring precise trajectory tracking and collision prevention. To validate our approach, we developed a high-fidelity 3D urban simulation environment using AirSim, featuring realistic imagery and dynamic urban elements. Extensive experiments demonstrate that SkyVLN significantly improves navigation success rates and efficiency, particularly in new and unseen environments.
- Abstract(参考訳): 無人航空機(UAV)は、移動性と適応性によって、様々な分野にまたがって多用途のツールとして登場した。
本稿では,複雑な都市環境におけるUAV自律性を高めるために,視覚・言語ナビゲーション(VLN)と非線形モデル予測制御(NMPC)を統合した新しいフレームワークであるSkyVLNを紹介する。
従来のナビゲーション手法とは異なり、SkyVLNはLarge Language Models(LLM)を利用して自然言語の指示や視覚的な観察を解釈し、UAVは精度と堅牢性を改善してダイナミックな3D空間をナビゲートすることができる。
本稿では,細粒度空間言語器と履歴経路記憶機構を備えたマルチモーダルナビゲーションエージェントを提案する。
これらのコンポーネントにより、UAVは空間的コンテキストを曖昧にし、あいまいな指示を処理し、必要に応じてバックトラックを処理できる。
また、動的障害物回避のためのNMPCモジュールも組み込まれており、正確な軌道追跡と衝突防止が保証されている。
提案手法の有効性を検証するため,AirSimを用いた高忠実度3次元都市シミュレーション環境を構築した。
大規模な実験により、SkyVLNは航法の成功率と効率を、特に新鮮で目に見えない環境で著しく改善することが示された。
関連論文リスト
- NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z) - UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning [39.07541452390107]
無人航空機(UAV)は言語と対話するプラットフォームへと進化し、より直感的な人間とドローンの相互作用を可能にしている。
本研究では,この問題をFlying-on-a-Word(Flow)タスクとして形式化し,UAV模倣学習を効果的なアプローチとして導入する。
UAV-Flowは, 言語条件付き, きめ細かいUAV制御のための, 世界初の実世界のベンチマークである。
論文 参考訳(メタデータ) (2025-05-21T16:31:28Z) - UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。
UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。
本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文 参考訳(メタデータ) (2025-04-30T08:40:47Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文 参考訳(メタデータ) (2023-08-13T09:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。