論文の概要: Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
- arxiv url: http://arxiv.org/abs/2410.07087v2
- Date: Thu, 10 Oct 2024 05:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:37:20.445913
- Title: Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
- Title(参考訳): リアリスティックなUAVビジョンランゲージナビゲーションに向けて:プラットフォーム,ベンチマーク,方法論
- Authors: Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu,
- Abstract要約: UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
- 参考スコア(独自算出の注目度): 38.2096731046639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)として知られる言語指示や視覚情報に基づいて、目標地点へのナビゲートが可能な開発エージェントが広く関心を集めている。
ほとんどの研究は地上のエージェントに焦点をあてているが、UAVベースのVLNは比較的未調査である。
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用しており、事前に定義された個別の行動空間に依存し、エージェントの運動力学における固有の相違や、地上環境と空中環境の間のナビゲーションタスクの複雑さを無視している。
これらの格差と課題に対処するために、プラットフォーム、ベンチマーク、方法論という3つの観点から解決策を提案する。
VLNタスクにおけるリアルなUAV軌道シミュレーションを実現するために,多様な環境,現実的な飛行制御,広範囲なアルゴリズム支援を備えたOpenUAVプラットフォームを提案する。
さらに、このプラットフォーム上で約12kの軌道からなる目標指向VLNデータセットを構築し、現実的なUAV VLNタスクに特化して設計された最初のデータセットとして機能する。
複雑な空域環境がもたらす課題に対処するため,UAV-Need-Helpと呼ばれる補助誘導型UAVオブジェクト探索ベンチマークを提案する。
また、マルチビュー画像、タスク記述、アシスタント命令を付与し、MLLMのマルチモーダル理解機能を利用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を行うUAVナビゲーションLLMを提案する。
評価結果は,UAV-Need-Helpタスクの課題を裏付けるものとして,評価結果と人的操作者の間には大きな差があるものの,ベースラインモデルよりも有意に優れていた。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Integrating Large Language Models for UAV Control in Simulated Environments: A Modular Interaction Approach [0.3495246564946556]
本研究では,UAV制御における大規模言語モデルの適用について検討する。
UAVが自然言語コマンドを解釈し、応答できるようにすることで、LLMはUAVの制御と使用を簡素化する。
本稿では,自律的な意思決定,動的なミッション計画,状況認識の向上,安全プロトコルの改善など,LCMがUAV技術に影響を与えるいくつかの重要な領域について論じる。
論文 参考訳(メタデータ) (2024-10-23T06:56:53Z) - Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning [48.33405770713208]
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして導入する,航空VLNタスクのエンドツーエンドフレームワークを提案する。
我々は, LLMの空間的推論能力を高めるために, セマンティック・トポ・メトリック表現(STMR)を開発した。
実環境およびシミュレーション環境で行った実験は,本手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文 参考訳(メタデータ) (2023-08-13T09:55:04Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z) - A Multi-UAV System for Exploration and Target Finding in Cluttered and
GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。
UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。
その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文 参考訳(メタデータ) (2021-07-19T12:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。