論文の概要: See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation
- arxiv url: http://arxiv.org/abs/2509.22653v1
- Date: Fri, 26 Sep 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.647832
- Title: See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation
- Title(参考訳): See, Point, Fly:Universal Unmanned Aerial Navigationのための学習不要なVLMフレームワーク
- Authors: Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu,
- Abstract要約: 本稿では,視覚言語モデル(VLM)上に構築された,訓練不要な空中視覚・言語ナビゲーションフレームワークであるSee, Point, Fly(SPF)を紹介する。
SPFは任意の種類のフリーフォーム命令に基づいて任意の目標にナビゲートすることができる。
- 参考スコア(独自算出の注目度): 13.892005619943513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language instructions into iterative annotation of 2D waypoints on the input image. Along with the predicted traveling distance, SPF transforms predicted 2D waypoints into 3D displacement vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the traveling distance to facilitate more efficient navigation. Notably, SPF performs navigation in a closed-loop control manner, enabling UAVs to follow dynamic targets in dynamic environments. SPF sets a new state of the art in DRL simulation benchmark, outperforming the previous best method by an absolute margin of 63%. In extensive real-world evaluations, SPF outperforms strong baselines by a large margin. We also conduct comprehensive ablation studies to highlight the effectiveness of our design choice. Lastly, SPF shows remarkable generalization to different VLMs. Project page: https://spf-web.pages.dev
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)上に構築された,訓練不要な空中視覚言語ナビゲーション(AVLN)フレームワークであるSee, Point, Fly(SPF)を紹介する。
SPFは任意の種類のフリーフォーム命令に基づいて任意の目標にナビゲートすることができる。
行動予測をテキスト生成タスクとして扱う既存のVLMベースのアプローチとは対照的に,AVLNの行動予測を2次元空間接地タスクとして考えることが重要である。
SPFはVLMを利用して、曖昧な言語命令を入力画像上の2Dウェイポイントの反復アノテーションに分解する。
予測走行距離とともに、SPFは予測された2次元経路点をUAVのアクションコマンドとして3次元変位ベクトルに変換する。
さらに、SPFは走行距離を適応的に調整し、より効率的なナビゲーションを容易にする。
特にSPFはクローズドループ制御方式でナビゲーションを行い、UAVは動的環境において動的ターゲットに従うことができる。
SPFは、新しい最先端のDRLシミュレーションベンチマークを設定し、これまでのベストメソッドを63%のマージンで上回った。
大規模な実世界の評価において、SPFは大きなマージンで強いベースラインを上回っている。
デザイン選択の有効性を明らかにするために、包括的なアブレーション研究も行っています。
最後に、SPFは異なるVLMに対して顕著な一般化を示す。
プロジェクトページ: https://spf-web.pages.dev
関連論文リスト
- DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [12.152477445938759]
連続環境におけるVLN(Vision-and-Language Navigation)は、制約のない3D空間をナビゲートしながら自然言語命令を解釈するエージェントを必要とする。
既存のVLN-CEフレームワークは、2段階のアプローチに依存している。
マルチモーダル大言語モデル(MLLM)に基づくナビゲータと拡張されたウェイポイント予測器を統合したゼロショットVLN-CEフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T05:32:57Z) - OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation [49.697035403548966]
Vision-Language Navigation (VLN)は、言語命令と視覚的手がかりを活用してエージェントを誘導することを目的としており、AIの具体化において重要な役割を果たす。
各種レンダリングエンジン,多用途ツールチェーン,航空VLNの大規模ベンチマークからなるプラットフォームであるOpenFlyを提案する。
我々は、100kの軌跡を持つ大規模な航空VLNデータセットを構築し、18のシーンにまたがる様々な高さと長さをカバーした。
論文 参考訳(メタデータ) (2025-02-25T09:57:18Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - M$^2$-3DLaneNet: Exploring Multi-Modal 3D Lane Detection [30.250833348463633]
M$2$-3DLaneNetは、深度補完を通してLiDARデータから幾何情報を取り込むことで、2Dの機能を3D空間に持ち上げる。
大規模なOpenLaneデータセットの実験では、範囲に関係なく、M$2$-3DLaneNetの有効性が示されている。
論文 参考訳(メタデータ) (2022-09-13T13:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。