論文の概要: AirNav: A Large-Scale Real-World UAV Vision-and-Language Navigation Dataset with Natural and Diverse Instructions
- arxiv url: http://arxiv.org/abs/2601.03707v1
- Date: Wed, 07 Jan 2026 08:46:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.380196
- Title: AirNav: A Large-Scale Real-World UAV Vision-and-Language Navigation Dataset with Natural and Diverse Instructions
- Title(参考訳): AirNav: 自然と多角的インストラクションを備えた大規模実世界のUAVビジョン・アンド・ランゲージナビゲーションデータセット
- Authors: Hengxing Cai, Yijie Rao, Ligang Huang, Zanyang Zhong, Jinhan Dong, Jingjun Tan, Wenhao Lu, Renxin Zhong,
- Abstract要約: 本研究では,実際の都市大気データから構築した大規模UAV VLNベンチマークであるAirNavを提案する。
また, スーパービジョンファインチューニングと強化ファインチューニングを組み合わせたAirVLN-R1を導入し, 性能向上と一般化を行った。
- 参考スコア(独自算出の注目度): 6.369522034276603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Unmanned Aerial Vehicle (UAV) Vision-Language Navigation (VLN) datasets face issues such as dependence on virtual environments, lack of naturalness in instructions, and limited scale. To address these challenges, we propose AirNav, a large-scale UAV VLN benchmark constructed from real urban aerial data, rather than synthetic environments, with natural and diverse instructions. Additionally, we introduce the AirVLN-R1, which combines Supervised Fine-Tuning and Reinforcement Fine-Tuning to enhance performance and generalization. The feasibility of the model is preliminarily evaluated through real-world tests. Our dataset and code are publicly available.
- Abstract(参考訳): 既存の無人航空機(UAV)ビジョンランゲージナビゲーション(VLN)データセットは、仮想環境への依存、指示の自然性の欠如、限定的なスケールといった問題に直面している。
これらの課題に対処するため,合成環境ではなく実際の都市大気データから構築した大規模UAV VLNベンチマークであるAirNavを提案する。
さらに, スーパービジョンファインチューニングと強化ファインチューニングを組み合わせたAirVLN-R1を導入し, 性能向上と一般化を行った。
モデルの有効性は、実世界のテストを通じて予備的に評価される。
データセットとコードは公開されています。
関連論文リスト
- IndoorUAV: Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments [21.821075450697027]
Vision-IndoorLanguage Navigation (VLN)は、視覚的な観察に基づく自然言語命令に従うことで、エージェントが複雑な環境でのナビゲーションを可能にする。
室内のUAVベースのVLNは、検査、配送、捜索・救助といった現実世界の応用に関係があるにもかかわらず、未調査のままである。
室内UAVを用いたVLNに適した新しいベンチマークと手法である textbfIndoorUAV を紹介する。
論文 参考訳(メタデータ) (2025-12-22T04:42:35Z) - History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。
既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。
この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T09:16:07Z) - SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments [7.251041314934871]
無人航空機(UAV)は、移動性と適応性によって、様々な分野にまたがって多用途のツールとして登場した。
本稿では,複雑な都市環境下でのUAV自律性を高めるために,VLNとモデル予測制御(NMPC)を統合した新しいフレームワークであるSkyVLNを紹介する。
論文 参考訳(メタデータ) (2025-07-09T05:38:32Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models [11.286340789648813]
無人航空機 (UAV) ビジョン・アンド・ランゲージ・ナビゲーション (VLN) は、災害対応、物流提供、都市検査などの用途に欠かせない。
本研究では,VLM(Vision-Language Models)上に構築された,強力なマルチモーダル認識機能を備えたUAV VLNフレームワークであるFlightGPTを提案する。
その結果、FlightGPTはすべてのシナリオで最先端のパフォーマンスを実現しており、未確認環境において最強のベースラインよりも9.22%高い成功率を示している。
論文 参考訳(メタデータ) (2025-05-19T08:21:20Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation [49.697035403548966]
Vision-Language Navigation (VLN)は、言語命令と視覚的手がかりを活用してエージェントを誘導することを目的としており、AIの具体化において重要な役割を果たす。
各種レンダリングエンジン,多用途ツールチェーン,航空VLNの大規模ベンチマークからなるプラットフォームであるOpenFlyを提案する。
我々は、100kの軌跡を持つ大規模な航空VLNデータセットを構築し、18のシーンにまたがる様々な高さと長さをカバーした。
論文 参考訳(メタデータ) (2025-02-25T09:57:18Z) - CityNav: A Large-Scale Dataset for Real-World Aerial Navigation [25.51740922661166]
航空VLNのための最初の大規模実世界のデータセットであるCityNavを紹介する。
我々のデータセットは32,637人の実証軌道で構成されており、それぞれに自然言語の記述が組み合わされている。
ナビゲーション中に補助的なモダリティ入力として使用できる地理意味マップを作成する方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T12:08:27Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文 参考訳(メタデータ) (2023-08-13T09:55:04Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。