Fugu-MT 論文翻訳(概要): Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

論文の概要: Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

arxiv url: http://arxiv.org/abs/2410.07087v2
Date: Thu, 10 Oct 2024 05:02:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 22:37:20.445913
Title: Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
Title（参考訳）: リアリスティックなUAVビジョンランゲージナビゲーションに向けて:プラットフォーム,ベンチマーク,方法論
Authors: Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu,
Abstract要約: UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
参考スコア（独自算出の注目度）: 38.2096731046639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.
Abstract（参考訳）: 視覚言語ナビゲーション(VLN)として知られる言語指示や視覚情報に基づいて、目標地点へのナビゲートが可能な開発エージェントが広く関心を集めている。ほとんどの研究は地上のエージェントに焦点をあてているが、UAVベースのVLNは比較的未調査である。 UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用しており、事前に定義された個別の行動空間に依存し、エージェントの運動力学における固有の相違や、地上環境と空中環境の間のナビゲーションタスクの複雑さを無視している。これらの格差と課題に対処するために、プラットフォーム、ベンチマーク、方法論という3つの観点から解決策を提案する。 VLNタスクにおけるリアルなUAV軌道シミュレーションを実現するために,多様な環境,現実的な飛行制御,広範囲なアルゴリズム支援を備えたOpenUAVプラットフォームを提案する。さらに、このプラットフォーム上で約12kの軌道からなる目標指向VLNデータセットを構築し、現実的なUAV VLNタスクに特化して設計された最初のデータセットとして機能する。複雑な空域環境がもたらす課題に対処するため,UAV-Need-Helpと呼ばれる補助誘導型UAVオブジェクト探索ベンチマークを提案する。また、マルチビュー画像、タスク記述、アシスタント命令を付与し、MLLMのマルチモーダル理解機能を利用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を行うUAVナビゲーションLLMを提案する。評価結果は,UAV-Need-Helpタスクの課題を裏付けるものとして,評価結果と人的操作者の間には大きな差があるものの,ベースラインモデルよりも有意に優れていた。

関連論文リスト

UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [5.414995940540323]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。 1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文参考訳（メタデータ） (2025-08-01T03:23:06Z)
UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning [39.07541452390107]
無人航空機(UAV)は言語と対話するプラットフォームへと進化し、より直感的な人間とドローンの相互作用を可能にしている。本研究では,この問題をFlying-on-a-Word(Flow)タスクとして形式化し,UAV模倣学習を効果的なアプローチとして導入する。 UAV-Flowは, 言語条件付き, きめ細かいUAV制御のための, 世界初の実世界のベンチマークである。
論文参考訳（メタデータ） (2025-05-21T16:31:28Z)
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。 UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文参考訳（メタデータ） (2025-04-30T08:40:47Z)
UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation [1.8742629471785477]
UAV-VLA (Visual-Language-Action) は、空中ロボットとの通信を容易にするためのツールである。衛星画像処理をビジュアル言語モデル(VLM)と統合し、GPTの強力な能力により、UAV-VLAはユーザーが一般的な飛行経路と行動計画を作成することができる。
論文参考訳（メタデータ） (2025-01-09T07:15:59Z)
UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility [33.73170899086857]
無人航空機(UAV)に代表される低高度機動性は、様々な領域に変革をもたらす。本稿では,大規模言語モデル(LLM)とUAVの統合について検討する。 UAVとLLMが収束する主要なタスクとアプリケーションシナリオを分類し分析する。
論文参考訳（メタデータ） (2025-01-04T17:32:12Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Integrating Large Language Models for UAV Control in Simulated Environments: A Modular Interaction Approach [0.3495246564946556]
本研究では,UAV制御における大規模言語モデルの適用について検討する。 UAVが自然言語コマンドを解釈し、応答できるようにすることで、LLMはUAVの制御と使用を簡素化する。本稿では,自律的な意思決定,動的なミッション計画,状況認識の向上,安全プロトコルの改善など,LCMがUAV技術に影響を与えるいくつかの重要な領域について論じる。
論文参考訳（メタデータ） (2024-10-23T06:56:53Z)
Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning [48.33405770713208]
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして導入する,航空VLNタスクのエンドツーエンドフレームワークを提案する。我々は, LLMの空間的推論能力を高めるために, セマンティック・トポ・メトリック表現(STMR)を開発した。実環境およびシミュレーション環境で行った実験は,本手法の有効性とロバスト性を実証した。
論文参考訳（メタデータ） (2024-10-11T03:54:48Z)
Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文参考訳（メタデータ） (2024-07-10T15:49:07Z)
OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文参考訳（メタデータ） (2024-03-26T02:34:48Z)
Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文参考訳（メタデータ） (2023-11-28T02:28:12Z)
AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。 AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文参考訳（メタデータ） (2023-08-13T09:55:04Z)
Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文参考訳（メタデータ） (2022-01-23T07:18:55Z)
A Multi-UAV System for Exploration and Target Finding in Cluttered and GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。 UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文参考訳（メタデータ） (2021-07-19T12:54:04Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。