論文の概要: Fly0: Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation
- arxiv url: http://arxiv.org/abs/2602.15875v1
- Date: Mon, 02 Feb 2026 09:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.682272
- Title: Fly0: Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation
- Title(参考訳): Fly0: ゼロショット航法のための幾何学的計画からセマンティックグラウンドを分離する
- Authors: Zhenxing Xu, Brikit Lu, Weidong Bao, Zhengqiu Zhu, Junsong Zhang, Hui Yan, Wenhao Lu, Ji Wang,
- Abstract要約: 現在のVisual-Language Navigation (VLN) 手法はセマンティック理解と制御精度のトレードオフに直面している。
幾何学的計画から意味論的推論を分離するフレームワークFly0を提案する。
Fly0は計算オーバーヘッドを減らし、システムの安定性を向上させる。
- 参考スコア(独自算出の注目度): 14.466092698477858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Visual-Language Navigation (VLN) methodologies face a trade-off between semantic understanding and control precision. While Multimodal Large Language Models (MLLMs) offer superior reasoning, deploying them as low-level controllers leads to high latency, trajectory oscillations, and poor generalization due to weak geometric grounding. To address these limitations, we propose Fly0, a framework that decouples semantic reasoning from geometric planning. The proposed method operates through a three-stage pipeline: (1) an MLLM-driven module for grounding natural language instructions into 2D pixel coordinates; (2) a geometric projection module that utilizes depth data to localize targets in 3D space; and (3) a geometric planner that generates collision-free trajectories. This mechanism enables robust navigation even when visual contact is lost. By eliminating the need for continuous inference, Fly0 reduces computational overhead and improves system stability. Extensive experiments in simulation and real-world environments demonstrate that Fly0 outperforms state-of-the-art baselines, improving the Success Rate by over 20\% and reducing Navigation Error (NE) by approximately 50\% in unstructured environments. Our code is available at https://github.com/xuzhenxing1/Fly0.
- Abstract(参考訳): 現在のVisual-Language Navigation (VLN) 手法はセマンティック理解と制御精度のトレードオフに直面している。
MLLM(Multimodal Large Language Models)はより優れた推論を提供するが、低レベルコントローラとして配置すると、低遅延、軌道振動、弱い幾何学的接地による一般化が困難になる。
これらの制約に対処するため,幾何計画から意味論的推論を分離するフレームワークFly0を提案する。
提案手法は,(1)自然言語命令を2次元画素座標にグラウンド化するためのMLLM駆動モジュール,(2)3次元空間におけるターゲットの局所化に深度データを利用する幾何学的射影モジュール,(3)衝突のない軌道を生成する幾何学的プランナ,という3段階のパイプラインを介して動作する。
このメカニズムは、視覚的接触が失われても堅牢なナビゲーションを可能にする。
連続推論の必要性をなくすことで、Fly0は計算オーバーヘッドを減らし、システムの安定性を向上させる。
シミュレーションと実世界の環境における大規模な実験により、Fly0は最先端のベースラインを上回り、成功率を20%以上改善し、未構造化環境ではナビゲーションエラー(NE)を約50%削減した。
私たちのコードはhttps://github.com/xuzhenxing1/Fly0.comから入手可能です。
関連論文リスト
- LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry [41.054069737969876]
非構造環境における軌道計画は、移動ロボットの基本的で困難な能力である。
ローカライズされたエンドツーエンドナビゲーションフレームワークであるLoGoPlannerを紹介する。
シミュレーションと実世界の両方の環境でLoGoPlannerを評価し,その完全なエンドツーエンド設計により累積誤差が低減される。
論文 参考訳(メタデータ) (2025-12-22T18:03:08Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation [34.44214123004662]
本稿では,差別化可能な意味的・空間的批判のための枠組みであるVLM3Dを提案する。
我々のコアコントリビューションは、VLMの「Yes or No log-odds」から派生した2言語による批判信号です。
VLM3Dは、VLMの豊かな言語によるセマンティクスと空間の理解を多種多様な3D生成パイプラインに注入する、原則的で一般的な経路を確立している。
論文 参考訳(メタデータ) (2025-11-18T09:05:26Z) - Beyond Flatlands: Unlocking Spatial Intelligence by Decoupling 3D Reasoning from Numerical Regression [12.590536117486257]
既存の視覚言語モデル(VLM)は、現実世界の空間知能を理解するのに苦労している。
GEODEは2つの特別なプラグアンドプレイモジュールでメインVLMを拡張している。
これらのモジュールの相乗効果により、1.5Bパラメータモデルは高レベルのセマンティックディスパッチとして機能します。
論文 参考訳(メタデータ) (2025-11-14T12:42:07Z) - VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation [52.00474922315126]
未確認環境のための視覚言語ナビゲーションフレームワークであるVLN-Zeroを提案する。
我々は視覚言語モデルを用いて、記号的なシーングラフを効率的に構築し、ゼロショットのニューロシンボリックナビゲーションを可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比べて2倍の成功率を獲得し、最も微調整されたベースラインを上回り、半分の時間でゴール地点に達する。
論文 参考訳(メタデータ) (2025-09-23T03:23:03Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。
この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文 参考訳(メタデータ) (2024-03-15T14:35:05Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。