論文の概要: IndoorUAV: Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments
- arxiv url: http://arxiv.org/abs/2512.19024v1
- Date: Mon, 22 Dec 2025 04:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.619308
- Title: IndoorUAV: Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments
- Title(参考訳): IndoorUAV: 連続した室内環境におけるビジョンランゲージUAVナビゲーションのベンチマーク
- Authors: Xu Liu, Yu Liu, Hanshuo Qiu, Yang Qirong, Zhouhui Lian,
- Abstract要約: Vision-IndoorLanguage Navigation (VLN)は、視覚的な観察に基づく自然言語命令に従うことで、エージェントが複雑な環境でのナビゲーションを可能にする。
室内のUAVベースのVLNは、検査、配送、捜索・救助といった現実世界の応用に関係があるにもかかわらず、未調査のままである。
室内UAVを用いたVLNに適した新しいベンチマークと手法である textbfIndoorUAV を紹介する。
- 参考スコア(独自算出の注目度): 21.821075450697027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) enables agents to navigate in complex environments by following natural language instructions grounded in visual observations. Although most existing work has focused on ground-based robots or outdoor Unmanned Aerial Vehicles (UAVs), indoor UAV-based VLN remains underexplored, despite its relevance to real-world applications such as inspection, delivery, and search-and-rescue in confined spaces. To bridge this gap, we introduce \textbf{IndoorUAV}, a novel benchmark and method specifically tailored for VLN with indoor UAVs. We begin by curating over 1,000 diverse and structurally rich 3D indoor scenes from the Habitat simulator. Within these environments, we simulate realistic UAV flight dynamics to collect diverse 3D navigation trajectories manually, further enriched through data augmentation techniques. Furthermore, we design an automated annotation pipeline to generate natural language instructions of varying granularity for each trajectory. This process yields over 16,000 high-quality trajectories, comprising the \textbf{IndoorUAV-VLN} subset, which focuses on long-horizon VLN. To support short-horizon planning, we segment long trajectories into sub-trajectories by selecting semantically salient keyframes and regenerating concise instructions, forming the \textbf{IndoorUAV-VLA} subset. Finally, we introduce \textbf{IndoorUAV-Agent}, a novel navigation model designed for our benchmark, leveraging task decomposition and multimodal reasoning. We hope IndoorUAV serves as a valuable resource to advance research on vision-language embodied AI in the indoor aerial navigation domain.
- Abstract(参考訳): VLN(Vision-Language Navigation)は、視覚的な観察を基礎とした自然言語の指示に従うことで、エージェントが複雑な環境でのナビゲーションを可能にする。
既存の作業は地上ロボットや無人航空機(UAV)に重点を置いているが、室内のUAVベースのVLNは、検査、配送、捜索・救助といった現実世界の応用に関係があるにもかかわらず、まだ探索が進んでいない。
このギャップを埋めるために、室内UAVでVLNに適した新しいベンチマークと方法である「textbf{IndoorUAV}」を導入する。
ハビタットシミュレーターから1000以上の多様で構造的にリッチな屋内シーンをキュレートすることから始めます。
これらの環境では、現実的なUAV飛行のダイナミクスをシミュレートし、様々な3次元ナビゲーショントラジェクトリを手動で収集し、さらにデータ拡張技術によって強化する。
さらに,各軌道の粒度の異なる自然言語命令を生成するための自動アノテーションパイプラインを設計する。
このプロセスでは、16,000以上の高品質な軌道が生成され、長い水平VLNに焦点をあてた \textbf{IndoorUAV-VLN} サブセットを含んでいる。
ショートホライゾン計画を支援するために,意味論的に健全なキーフレームを選択し,簡潔な命令を再生することにより,長い軌跡をサブトラジェクトリに分割し,textbf{IndoorUAV-VLA}サブセットを形成する。
最後に,タスク分解とマルチモーダル推論を利用した新しいナビゲーションモデルである‘textbf{IndoorUAV-Agent} を紹介する。
IndoorUAVは、屋内の航法領域における視覚言語で具体化されたAIの研究を進める上で、貴重なリソースとなることを願っている。
関連論文リスト
- AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments [7.251041314934871]
無人航空機(UAV)は、移動性と適応性によって、様々な分野にまたがって多用途のツールとして登場した。
本稿では,複雑な都市環境下でのUAV自律性を高めるために,VLNとモデル予測制御(NMPC)を統合した新しいフレームワークであるSkyVLNを紹介する。
論文 参考訳(メタデータ) (2025-07-09T05:38:32Z) - UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。
UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。
本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文 参考訳(メタデータ) (2025-04-30T08:40:47Z) - OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation [49.697035403548966]
Vision-Language Navigation (VLN)は、言語命令と視覚的手がかりを活用してエージェントを誘導することを目的としており、AIの具体化において重要な役割を果たす。
各種レンダリングエンジン,多用途ツールチェーン,航空VLNの大規模ベンチマークからなるプラットフォームであるOpenFlyを提案する。
我々は、100kの軌跡を持つ大規模な航空VLNデータセットを構築し、18のシーンにまたがる様々な高さと長さをカバーした。
論文 参考訳(メタデータ) (2025-02-25T09:57:18Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:29:01Z) - AerialVLN: Vision-and-Language Navigation for UAVs [23.40363176320464]
AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
論文 参考訳(メタデータ) (2023-08-13T09:55:04Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。