論文の概要: AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation
- arxiv url: http://arxiv.org/abs/2601.12742v1
- Date: Mon, 19 Jan 2026 05:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.770085
- Title: AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation
- Title(参考訳): AirHunt: 効率的な空中物体航法のためのVLMセマンティックスと連続計画
- Authors: Xuecheng Chen, Zongzhuo Liu, Jianfa Ma, Bang Du, Tiantian Zhang, Xueqian Wang, Boyu Zhou,
- Abstract要約: AirHuntは、屋外環境でゼロショットの一般化を伴うオープンセットオブジェクトを効率的に検出する、空中オブジェクトナビゲーションシステムである。
AirHuntは、VLMセマンティック推論とパス計画の相乗的インターフェースを確立する、デュアルパスの非同期アーキテクチャを備えている。
多様なオブジェクトナビゲーションタスクや環境にまたがってAirHuntを評価し,ナビゲーションエラーの低減と飛行時間短縮を図った。
- 参考スコア(独自算出の注目度): 13.973823761671673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large Vision-Language Models (VLMs) have provided rich semantic understanding that empowers drones to search for open-set objects via natural language instructions. However, prior systems struggle to integrate VLMs into practical aerial systems due to orders-of-magnitude frequency mismatch between VLM inference and real-time planning, as well as VLMs' limited 3D scene understanding. They also lack a unified mechanism to balance semantic guidance with motion efficiency in large-scale environments. To address these challenges, we present AirHunt, an aerial object navigation system that efficiently locates open-set objects with zero-shot generalization in outdoor environments by seamlessly fusing VLM semantic reasoning with continuous path planning. AirHunt features a dual-pathway asynchronous architecture that establishes a synergistic interface between VLM reasoning and path planning, enabling continuous flight with adaptive semantic guidance that evolves through motion. Moreover, we propose an active dual-task reasoning module that exploits geometric and semantic redundancy to enable selective VLM querying, and a semantic-geometric coherent planning module that dynamically reconciles semantic priorities and motion efficiency in a unified framework, enabling seamless adaptation to environmental heterogeneity. We evaluate AirHunt across diverse object navigation tasks and environments, demonstrating a higher success rate with lower navigation error and reduced flight time compared to state-of-the-art methods. Real-world experiments further validate AirHunt's practical capability in complex and challenging environments. Code and dataset will be made publicly available before publication.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)の最近の進歩は、自然言語によるオープンセットオブジェクトの探索をドローンに促すような、リッチなセマンティック理解を提供してきた。
しかし、従来のシステムでは、VLM推論とリアルタイムプランニングのオーダー・オブ・マグニチュード・周波数ミスマッチや、VLMの限られた3Dシーン理解のために、VLMを実用的な航空システムに統合することに苦労していた。
また、大規模環境における意味指導と運動効率のバランスをとるための統一的なメカニズムも欠如している。
これらの課題に対処するために,VLMセマンティック推論と連続経路計画をシームレスに融合させることにより,屋外環境におけるゼロショット一般化によるオープンセットオブジェクトの効率的な検出を行う航空オブジェクトナビゲーションシステムであるAirHuntを提案する。
AirHuntはデュアルパスの非同期アーキテクチャを備えており、VLM推論と経路計画の相乗的インターフェースを確立し、動きを通じて進化する適応的なセマンティックガイダンスで連続飛行を可能にする。
さらに、幾何学的および意味的冗長性を利用して選択的VLMクエリを可能にするアクティブなデュアルタスク推論モジュールと、統合されたフレームワークにおける意味的優先順位と動きの効率を動的に調整し、環境の不均一性へのシームレスな適応を可能にするセマンティックジオメトリ・コヒーレント計画モジュールを提案する。
本研究では,様々なオブジェクトナビゲーションタスクや環境にまたがってAirHuntを評価し,航法誤差の低減と飛行時間短縮による成功率の向上を,最先端の手法と比較した。
実世界の実験は、複雑で困難な環境でのAirHuntの実用能力をさらに検証している。
コードとデータセットは公開前に公開される予定だ。
関連論文リスト
- SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [17.86691411018085]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。
多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。
1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文 参考訳(メタデータ) (2025-08-01T03:23:06Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。