論文の概要: Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.07705v1
- Date: Thu, 09 Apr 2026 01:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.629148
- Title: Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models
- Title(参考訳): 航空ロボットの視覚言語ナビゲーション:大規模言語モデルの時代に向けて
- Authors: Xingyu Xia, Lekai Zhou, Yujie Tang, Xiaozhou Zhu, Hai Zhu, Wen Yao,
- Abstract要約: 航空視覚言語ナビゲーション(Aerial VLN)は、無人航空機(UAV)が自然言語の指示を解釈できるようにすることを目的としている。
この調査は、エアリアルVLN分野の批判的かつ分析的なレビューを提供する。
- 参考スコア(独自算出の注目度): 12.450846432769502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial vision-and-language navigation (Aerial VLN) aims to enable unmanned aerial vehicles (UAVs) to interpret natural language instructions and autonomously navigate complex three-dimensional environments by grounding language in visual perception. This survey provides a critical and analytical review of the Aerial VLN field, with particular attention to the recent integration of large language models (LLMs) and vision-language models (VLMs). We first formally introduce the Aerial VLN problem and define two interaction paradigms: single-instruction and dialog-based, as foundational axes. We then organize the body of Aerial VLN methods into a taxonomy of five architectural categories: sequence-to-sequence and attention-based methods, end-to-end LLM/VLM methods, hierarchical methods, multi-agent methods, and dialog-based navigation methods. For each category, we systematically analyze design rationales, technical trade-offs, and reported performance. We critically assess the evaluation infrastructure for Aerial VLN, including datasets, simulation platforms, and metrics, and identify their gaps in scale, environmental diversity, real-world grounding, and metric coverage. We consolidate cross-method comparisons on shared benchmarks and analyze key architectural trade-offs, including discrete versus continuous actions, end-to-end versus hierarchical designs, and the simulation-to-reality gap. Finally, we synthesize seven concrete open problems: long-horizon instruction grounding, viewpoint robustness, scalable spatial representation, continuous 6-DoF action execution, onboard deployment, benchmark standardization, and multi-UAV swarm navigation, with specific research directions grounded in the evidence presented throughout the survey.
- Abstract(参考訳): 空中視覚言語ナビゲーション(Aerial VLN)は、無人航空機(UAV)が自然言語の指示を解釈し、視覚的に言語を接地することで複雑な3次元環境を自律的にナビゲートすることを目的としている。
この調査は、最近の大規模言語モデル(LLM)と視覚言語モデル(VLM)の統合に特に注目する、エアリアルVLN分野の批判的かつ分析的なレビューを提供する。
まず,Aerial VLN問題を導入し,単命令と対話に基づく2つの相互作用パラダイムを基礎軸として定義する。
次に,Aerial VLNメソッドの本体を,シーケンス・ツー・シーケンスとアテンション・ベースの手法,エンドツーエンドのLLM/VLMメソッド,階層的手法,マルチエージェント手法,ダイアログベースのナビゲーション手法の5つのカテゴリの分類に分類する。
各カテゴリについて、設計の合理性、技術的なトレードオフ、パフォーマンスの報告を体系的に分析する。
我々は、データセット、シミュレーションプラットフォーム、メトリクスを含むAerial VLNの評価基盤を批判的に評価し、スケール、環境多様性、現実世界の接地、計量カバレッジのギャップを特定する。
共有ベンチマークのクロスメソッド比較を集約し、離散的なアクションと連続的なアクション、エンドツーエンドと階層的な設計、シミュレーションと現実のギャップなど、重要なアーキテクチャ上のトレードオフを分析します。
最後に, 長距離指導接地, 視点ロバスト性, 拡張性のある空間表現, 連続6-DoFアクション実行, オンボード展開, ベンチマーク標準化, マルチUAVスワムナビゲーションの7つの具体的オープンな問題を, 調査全体を通して提示されたエビデンスに具体化して合成する。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [17.86691411018085]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。
多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。
1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文 参考訳(メタデータ) (2025-08-01T03:23:06Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [49.073964142139495]
マルチモーダル融合法と視覚言語モデルの適用と進歩を体系的に検討する。
セマンティックシーン理解タスクでは、エンコーダデコーダフレームワーク、アテンションベースアーキテクチャ、グラフニューラルネットワークに融合アプローチを分類する。
クロスモーダルアライメント、効率的な融合、リアルタイムデプロイメント、ドメイン適応など、現在の研究における重要な課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:29:01Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。