論文の概要: Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2512.08639v1
- Date: Tue, 09 Dec 2025 14:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.997101
- Title: Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning
- Title(参考訳): 空間的, 時間的, 身体的推論のための統合フレームワークを用いた空中視線ナビゲーション
- Authors: Huilin Xu, Zhuoyang Liu, Yixiang Luomei, Feng Xu,
- Abstract要約: 本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
- 参考スコア(独自算出の注目度): 5.517595398768408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial Vision-and-Language Navigation (VLN) aims to enable unmanned aerial vehicles (UAVs) to interpret natural language instructions and navigate complex urban environments using onboard visual observation. This task holds promise for real-world applications such as low-altitude inspection, search-and-rescue, and autonomous aerial delivery. Existing methods often rely on panoramic images, depth inputs, or odometry to support spatial reasoning and action planning. These requirements increase system cost and integration complexity, thus hindering practical deployment for lightweight UAVs. We present a unified aerial VLN framework that operates solely on egocentric monocular RGB observations and natural language instructions. The model formulates navigation as a next-token prediction problem, jointly optimizing spatial perception, trajectory reasoning, and action prediction through prompt-guided multi-task learning. Moreover, we propose a keyframe selection strategy to reduce visual redundancy by retaining semantically informative frames, along with an action merging and label reweighting mechanism that mitigates long-tailed supervision imbalance and facilitates stable multi-task co-training. Extensive experiments on the Aerial VLN benchmark validate the effectiveness of our method. Under the challenging monocular RGB-only setting, our model achieves strong results across both seen and unseen environments. It significantly outperforms existing RGB-only baselines and narrows the performance gap with state-of-the-art panoramic RGB-D counterparts. Comprehensive ablation studies further demonstrate the contribution of our task design and architectural choices.
- Abstract(参考訳): VLN(Aerial Vision-and-Language Navigation)は、無人航空機(UAV)が自然言語を解釈し、複雑な都市環境を視界で観察することを目的としている。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
既存の手法では、空間的推論や行動計画を支援するために、パノラマ画像、深度入力、またはオドメトリーに頼っていることが多い。
これらの要求はシステムコストと統合の複雑さを増大させ、軽量UAVの実践的な展開を妨げる。
本稿では,エゴセントリックな単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このモデルは,探索誘導マルチタスク学習による空間知覚,軌跡推論,行動予測を共同で最適化する次世代の予測問題としてナビゲーションを定式化する。
さらに,視覚的冗長性を抑えるためのキーフレーム選択手法を提案する。また,長時間の監視の不均衡を緩和し,安定したマルチタスク協調訓練を容易にするアクションマージとラベル再重み付け機構も提案する。
Aerial VLNベンチマークの大規模な実験により,本手法の有効性が検証された。
難解な単分子RGBのみの設定の下で、我々のモデルは、目に見えない環境と見えない環境の両方で強力な結果が得られる。
既存のRGBのみのベースラインを著しく上回り、最先端のパノラマRGB-Dとのパフォーマンスギャップを狭める。
包括的アブレーション研究は、タスク設計とアーキテクチャ選択の貢献をさらに実証する。
関連論文リスト
- AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Space Non-cooperative Object Active Tracking with Deep Reinforcement
Learning [1.212848031108815]
DRLAVTと命名されたDQNアルゴリズムに基づくエンドツーエンドのアクティブなトラッキング手法を提案する。
追尾宇宙船のアプローチを、色やRGBD画像にのみ依存した任意の空間の非協力目標に導くことができる。
位置ベースのビジュアルサーボベースラインアルゴリズムでは、最先端の2DモノクロトラッカーであるSiamRPNをはるかに上回っている。
論文 参考訳(メタデータ) (2021-12-18T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。