Fugu-MT 論文翻訳(概要): SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments

論文の概要: SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments

arxiv url: http://arxiv.org/abs/2507.06564v1
Date: Wed, 09 Jul 2025 05:38:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.484777
Title: SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments
Title（参考訳）: SkyVLN:都市環境におけるUAVの視覚・言語ナビゲーションとNMPC制御
Authors: Tianshun Li, Tianyi Huai, Zhen Li, Yichun Gao, Haoang Li, Xinhu Zheng,
Abstract要約: 無人航空機(UAV)は、移動性と適応性によって、様々な分野にまたがって多用途のツールとして登場した。本稿では,複雑な都市環境下でのUAV自律性を高めるために,VLNとモデル予測制御(NMPC)を統合した新しいフレームワークであるSkyVLNを紹介する。
参考スコア（独自算出の注目度）: 7.251041314934871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unmanned Aerial Vehicles (UAVs) have emerged as versatile tools across various sectors, driven by their mobility and adaptability. This paper introduces SkyVLN, a novel framework integrating vision-and-language navigation (VLN) with Nonlinear Model Predictive Control (NMPC) to enhance UAV autonomy in complex urban environments. Unlike traditional navigation methods, SkyVLN leverages Large Language Models (LLMs) to interpret natural language instructions and visual observations, enabling UAVs to navigate through dynamic 3D spaces with improved accuracy and robustness. We present a multimodal navigation agent equipped with a fine-grained spatial verbalizer and a history path memory mechanism. These components allow the UAV to disambiguate spatial contexts, handle ambiguous instructions, and backtrack when necessary. The framework also incorporates an NMPC module for dynamic obstacle avoidance, ensuring precise trajectory tracking and collision prevention. To validate our approach, we developed a high-fidelity 3D urban simulation environment using AirSim, featuring realistic imagery and dynamic urban elements. Extensive experiments demonstrate that SkyVLN significantly improves navigation success rates and efficiency, particularly in new and unseen environments.
Abstract（参考訳）: 無人航空機(UAV)は、移動性と適応性によって、様々な分野にまたがって多用途のツールとして登場した。本稿では,複雑な都市環境におけるUAV自律性を高めるために,視覚・言語ナビゲーション(VLN)と非線形モデル予測制御(NMPC)を統合した新しいフレームワークであるSkyVLNを紹介する。従来のナビゲーション手法とは異なり、SkyVLNはLarge Language Models(LLM)を利用して自然言語の指示や視覚的な観察を解釈し、UAVは精度と堅牢性を改善してダイナミックな3D空間をナビゲートすることができる。本稿では,細粒度空間言語器と履歴経路記憶機構を備えたマルチモーダルナビゲーションエージェントを提案する。これらのコンポーネントにより、UAVは空間的コンテキストを曖昧にし、あいまいな指示を処理し、必要に応じてバックトラックを処理できる。また、動的障害物回避のためのNMPCモジュールも組み込まれており、正確な軌道追跡と衝突防止が保証されている。提案手法の有効性を検証するため,AirSimを用いた高忠実度3次元都市シミュレーション環境を構築した。大規模な実験により、SkyVLNは航法の成功率と効率を、特に新鮮で目に見えない環境で著しく改善することが示された。

関連論文リスト

NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文参考訳（メタデータ） (2025-06-23T14:28:30Z)
VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文参考訳（メタデータ） (2025-06-12T14:40:50Z)
UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning [39.07541452390107]
無人航空機(UAV)は言語と対話するプラットフォームへと進化し、より直感的な人間とドローンの相互作用を可能にしている。本研究では,この問題をFlying-on-a-Word(Flow)タスクとして形式化し,UAV模倣学習を効果的なアプローチとして導入する。 UAV-Flowは, 言語条件付き, きめ細かいUAV制御のための, 世界初の実世界のベンチマークである。
論文参考訳（メタデータ） (2025-05-21T16:31:28Z)
Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [61.21302433849139]
VLN(Vision-and-Language Navigation)は、生体エージェントが空間移動を利用して3D環境をナビゲートするコアタスクである。ナビゲーション動作予測において3D-VLMを学習するための視覚入力として,言語整列,一般化,階層的な3D表現を利用する動的階層化3D表現モデルDynam3Dを提案する。我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
論文参考訳（メタデータ） (2025-05-16T15:46:27Z)
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。 UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文参考訳（メタデータ） (2025-04-30T08:40:47Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Navigation Instruction Generation with BEV Perception and Large Language Models [60.455964599187205]
本稿では,Bird's Eye View(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。具体的には、BEVインストラクタは、BEVとパースペクティブ特徴を融合させることにより、3D環境の理解のためのパースペクティブBEVを構築する。パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。
論文参考訳（メタデータ） (2024-07-21T08:05:29Z)
Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation [38.04404612393027]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。本研究では,パノラマ的トラバーサビリティ認識とパノラマ的セマンティック理解を備えた単分子ロボットを実現するためのシミュレート・トゥ・リアル・トランスファー手法を提案する。我々のVLNシステムはシミュレーション環境でR2R-CEとRxR-CEのベンチマークにおいて従来のSOTA単分子VLN法よりも優れており、実環境においても検証されている。
論文参考訳（メタデータ） (2024-06-14T07:50:09Z)
AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。 AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文参考訳（メタデータ） (2023-08-13T09:55:04Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。