論文の概要: VLN-Pilot: Large Vision-Language Model as an Autonomous Indoor Drone Operator
- arxiv url: http://arxiv.org/abs/2602.05552v1
- Date: Thu, 05 Feb 2026 11:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.903964
- Title: VLN-Pilot: Large Vision-Language Model as an Autonomous Indoor Drone Operator
- Title(参考訳): VLN-Pilot:自律型屋内ドローンオペレーターとしての大型ビジョンランゲージモデル
- Authors: Bessie Dominguez-Dager, Sergio Suescun-Ferrandiz, Felix Escalona, Francisco Gomez-Donoso, Miguel Cazorla,
- Abstract要約: VLN-Pilot(VLN-Pilot)は、大型のビジョン・アンド・ランゲージ・モデル(Vision-and-Language Model)が屋内ドローンナビゲーションにおいて人間のパイロットの役割を担っているフレームワークである。
我々のフレームワークは、言語による意味理解と視覚的知覚を統合し、文脈認識、高レベルの飛行行動を可能にする。
- 参考スコア(独自算出の注目度): 1.4878644292213625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces VLN-Pilot, a novel framework in which a large Vision-and-Language Model (VLLM) assumes the role of a human pilot for indoor drone navigation. By leveraging the multimodal reasoning abilities of VLLMs, VLN-Pilot interprets free-form natural language instructions and grounds them in visual observations to plan and execute drone trajectories in GPS-denied indoor environments. Unlike traditional rule-based or geometric path-planning approaches, our framework integrates language-driven semantic understanding with visual perception, enabling context-aware, high-level flight behaviors with minimal task-specific engineering. VLN-Pilot supports fully autonomous instruction-following for drones by reasoning about spatial relationships, obstacle avoidance, and dynamic reactivity to unforeseen events. We validate our framework on a custom photorealistic indoor simulation benchmark and demonstrate the ability of the VLLM-driven agent to achieve high success rates on complex instruction-following tasks, including long-horizon navigation with multiple semantic targets. Experimental results highlight the promise of replacing remote drone pilots with a language-guided autonomous agent, opening avenues for scalable, human-friendly control of indoor UAVs in tasks such as inspection, search-and-rescue, and facility monitoring. Our results suggest that VLLM-based pilots may dramatically reduce operator workload while improving safety and mission flexibility in constrained indoor environments.
- Abstract(参考訳): 本稿では,大型ビジョン・アンド・ランゲージ・モデル(VLLM)が屋内ドローンナビゲーションにおいて人間パイロットの役割を担っている新しいフレームワークであるVLN-Pilotを紹介する。
VLLMのマルチモーダル推論能力を活用することで、VLN-Pilotは、自由形式の自然言語命令を解釈し、それらを視覚的に観察することで、GPSを付加した屋内環境でドローン軌道の計画と実行を行う。
従来のルールベースや幾何学的パスプランニングアプローチとは異なり、我々のフレームワークは言語による意味理解と視覚的認識を統合し、最小限のタスク固有のエンジニアリングでコンテキスト認識、高レベルの飛行行動を可能にする。
VLN-Pilotは、空間的関係、障害物回避、予期せぬ事象に対する動的反応性を推論することで、ドローンの完全な自律的な命令追従をサポートする。
我々は,VLLMを駆動するエージェントが,複数のセマンティックターゲットを持つ長距離ナビゲーションを含む複雑な命令追従タスクにおいて高い成功率を達成できることを実証し,独自のフォトリアリスティック屋内シミュレーションベンチマークで検証した。
実験結果は、遠隔ドローンパイロットを言語誘導の自律エージェントに置き換え、検査、捜索救助、施設監視といったタスクにおいて、スケーラブルで人間に優しい屋内UAV制御のための道を開くという約束を強調している。
この結果から,VLLMをベースとしたパイロットは,室内環境の安全性とミッションの柔軟性を向上しつつ,作業負荷を大幅に削減できる可能性が示唆された。
関連論文リスト
- AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z) - UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning [39.07541452390107]
無人航空機(UAV)は言語と対話するプラットフォームへと進化し、より直感的な人間とドローンの相互作用を可能にしている。
本研究では,この問題をFlying-on-a-Word(Flow)タスクとして形式化し,UAV模倣学習を効果的なアプローチとして導入する。
UAV-Flowは, 言語条件付き, きめ細かいUAV制御のための, 世界初の実世界のベンチマークである。
論文 参考訳(メタデータ) (2025-05-21T16:31:28Z) - UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。
UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。
本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文 参考訳(メタデータ) (2025-04-30T08:40:47Z) - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:29:01Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。