論文の概要: Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap
- arxiv url: http://arxiv.org/abs/2604.13654v1
- Date: Wed, 15 Apr 2026 09:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.465973
- Title: Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap
- Title(参考訳): UAVのためのビジョン・アンド・ランゲージナビゲーション:進展、課題、研究ロードマップ
- Authors: Hanxuan Chen, Jie Zheng, Siqi Yang, Tianle Zeng, Siwei Feng, Songsheng Cheng, Ruilong Ren, Hanzhong Guo, Shuai Yuan, Xiangyue Wang, Kangli Wang, Ji Pei,
- Abstract要約: UAV-VLN (Vision-and-Language Navigation for Unmanned Aerial Vehicles) は、人工知能において重要な課題である。
本稿では,その形式的タスク定義から現状まで,その分野を包括的かつ構造化した調査を行う。
- 参考スコア(独自算出の注目度): 10.048113624715151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation for Unmanned Aerial Vehicles (UAV-VLN) represents a pivotal challenge in embodied artificial intelligence, focused on enabling UAVs to interpret high-level human commands and execute long-horizon tasks in complex 3D environments. This paper provides a comprehensive and structured survey of the field, from its formal task definition to the current state of the art. We establish a methodological taxonomy that charts the technological evolution from early modular and deep learning approaches to contemporary agentic systems driven by large foundation models, including Vision-Language Models (VLMs), Vision-Language-Action (VLA) models, and the emerging integration of generative world models with VLA architectures for physically-grounded reasoning. The survey systematically reviews the ecosystem of essential resources simulators, datasets, and evaluation metrics that facilitates standardized research. Furthermore, we conduct a critical analysis of the primary challenges impeding real-world deployment: the simulation-to-reality gap, robust perception in dynamic outdoor settings, reasoning with linguistic ambiguity, and the efficient deployment of large models on resource-constrained hardware. By synthesizing current benchmarks and limitations, this survey concludes by proposing a forward-looking research roadmap to guide future inquiry into key frontiers such as multi-agent swarm coordination and air-ground collaborative robotics.
- Abstract(参考訳): UAV-VLN(Vision-and-Language Navigation for Unmanned Aerial Vehicles)は、UAVが高レベルの人間の命令を解釈し、複雑な3D環境で長時間のタスクを実行することを可能にすることに焦点を当てた、人工知能の具体化における重要な課題である。
本稿では,その形式的タスク定義から現状まで,その分野を包括的かつ構造化した調査を行う。
本稿では,VLM (Vision-Language Models) やVLA (Vision-Language-Action) モデル,VLA アーキテクチャへの生成的世界モデルの新たな統合など,初期のモジュール型およびディープラーニングアプローチから,大規模基盤モデルによって駆動される現代エージェントシステムへの技術的進化を示す方法論的分類法を確立する。
この調査は、標準化された研究を促進する必要不可欠なリソースシミュレータ、データセット、評価指標のエコシステムを体系的にレビューする。
さらに、実世界の展開を妨げる主な課題として、シミュレーションと現実のギャップ、動的屋外環境における堅牢な認識、言語的曖昧さによる推論、資源制約のあるハードウェアへの大規模モデルの効率的な展開などについて批判的な分析を行う。
この調査は、現在のベンチマークと制限を合成することによって、将来の調査を指導する先進的な研究ロードマップを提案し、例えばマルチエージェントのSwarmコーディネートや地上での協調ロボティクスといった重要なフロンティアに導いた。
関連論文リスト
- Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models [12.450846432769502]
航空視覚言語ナビゲーション(Aerial VLN)は、無人航空機(UAV)が自然言語の指示を解釈できるようにすることを目的としている。
この調査は、エアリアルVLN分野の批判的かつ分析的なレビューを提供する。
論文 参考訳(メタデータ) (2026-04-09T01:47:24Z) - Agentic AI in Remote Sensing: Foundations, Taxonomy, and Emerging Systems [9.388162021920206]
この調査は、リモートセンシングにおけるエージェントAIの総合的なレビューである。
単一エージェントのコピロとマルチエージェントのシステムを区別した統合分類を導入する。
評価を画素レベルの精度から軌跡認識推論の正確性に移行する新しいベンチマークをレビューする。
論文 参考訳(メタデータ) (2026-01-05T08:34:17Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [96.1872246747684]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [49.073964142139495]
マルチモーダル融合法と視覚言語モデルの適用と進歩を体系的に検討する。
セマンティックシーン理解タスクでは、エンコーダデコーダフレームワーク、アテンションベースアーキテクチャ、グラフニューラルネットワークに融合アプローチを分類する。
クロスモーダルアライメント、効率的な融合、リアルタイムデプロイメント、ドメイン適応など、現在の研究における重要な課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - Small Vision-Language Models: A Survey on Compact Architectures and Techniques [0.28087862620958753]
小型視覚言語モデル(sVLM)の出現は、マルチモーダルAIにおける重要な進歩である。
この調査は、コンパクトデザインと計算効率の革新を強調するアーキテクチャの分類を提供する。
論文 参考訳(メタデータ) (2025-03-09T16:14:46Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。