論文の概要: FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments
- arxiv url: http://arxiv.org/abs/2601.07558v1
- Date: Mon, 12 Jan 2026 14:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.744484
- Title: FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments
- Title(参考訳): FlyCo: オープンワールド環境における自律型3D構造スキャンのための基礎モデル駆動型ドローン
- Authors: Chen Feng, Guiyong Zheng, Tengkai Zhuang, Yongqian Wu, Fangzhan He, Haojia Li, Juepeng Zheng, Shaojie Shen, Boyu Zhou,
- Abstract要約: FlyCoはFMを利用した知覚予測計画ループである。
多様なオープンワールド環境で、完全に自律的で、プロンプト駆動の3Dターゲットスキャンを可能にする。
FlyCoは正確なアブレーションシーン理解、高効率、リアルタイム安全性を提供する。
- 参考スコア(独自算出の注目度): 26.006291392930844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous 3D scanning of open-world target structures via drones remains challenging despite broad applications. Existing paradigms rely on restrictive assumptions or effortful human priors, limiting practicality, efficiency, and adaptability. Recent foundation models (FMs) offer great potential to bridge this gap. This paper investigates a critical research problem: What system architecture can effectively integrate FM knowledge for this task? We answer it with FlyCo, a principled FM-empowered perception-prediction-planning loop enabling fully autonomous, prompt-driven 3D target scanning in diverse unknown open-world environments. FlyCo directly translates low-effort human prompts (text, visual annotations) into precise adaptive scanning flights via three coordinated stages: (1) perception fuses streaming sensor data with vision-language FMs for robust target grounding and tracking; (2) prediction distills FM knowledge and combines multi-modal cues to infer the partially observed target's complete geometry; (3) planning leverages predictive foresight to generate efficient and safe paths with comprehensive target coverage. Building on this, we further design key components to boost open-world target grounding efficiency and robustness, enhance prediction quality in terms of shape accuracy, zero-shot generalization, and temporal stability, and balance long-horizon flight efficiency with real-time computability and online collision avoidance. Extensive challenging real-world and simulation experiments show FlyCo delivers precise scene understanding, high efficiency, and real-time safety, outperforming existing paradigms with lower human effort and verifying the proposed architecture's practicality. Comprehensive ablations validate each component's contribution. FlyCo also serves as a flexible, extensible blueprint, readily leveraging future FM and robotics advances. Code will be released.
- Abstract(参考訳): ドローンによるオープンワールドのターゲット構造の自律的な3Dスキャンは、幅広い応用にもかかわらず難しいままだ。
既存のパラダイムは、現実性、効率性、適応性を制限し、制限的な仮定や厳格な人間の優先に頼っている。
最近の基礎モデル(FM)は、このギャップを埋める大きな可能性を秘めている。
本稿では,この課題に対してFM知識を効果的に統合できるシステムアーキテクチャについて検討する。
FMを利用した知覚予測計画ループであるFlyCoは、未知のオープンワールド環境において、完全に自律的で、即時駆動の3Dターゲットスキャンを可能にする。
FlyCoは,低便な人間のプロンプト(テキスト,視覚的アノテーション)を直接3つの調整段階を通じて正確な適応型スキャン飛行に変換する。(1)知覚は,強固な目標の接地と追跡のための視覚言語FMとストリーミングセンサデータを融合する;(2)予測はFM知識を蒸留し,部分的な観測対象の完全な幾何学を推測するためのマルチモーダルキューを組み合わせる;(3)計画は,予測的フォレストを活用して,包括的目標カバレッジを持つ効率的で安全な経路を生成する。
これに基づいて、我々は、オープンワールドの目標接地効率とロバスト性を高め、形状精度、ゼロショット一般化、時間安定性の観点から予測品質を高め、リアルタイム計算性とオンライン衝突回避とのバランスをとるための重要なコンポーネントをさらに設計する。
大規模な現実とシミュレーションの実験は、FlyCoが正確なシーン理解、高効率、リアルタイムの安全性を提供し、人間の努力を減らして既存のパラダイムを上回り、提案されたアーキテクチャの実用性を検証していることを示している。
全体的な説明は各コンポーネントの貢献を検証します。
FlyCoはフレキシブルで拡張可能なブループリントとしても機能し、将来のFMやロボティクスの進歩を容易に活用できる。
コードはリリースされる。
関連論文リスト
- AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation [13.973823761671673]
AirHuntは、屋外環境でゼロショットの一般化を伴うオープンセットオブジェクトを効率的に検出する、空中オブジェクトナビゲーションシステムである。
AirHuntは、VLMセマンティック推論とパス計画の相乗的インターフェースを確立する、デュアルパスの非同期アーキテクチャを備えている。
多様なオブジェクトナビゲーションタスクや環境にまたがってAirHuntを評価し,ナビゲーションエラーの低減と飛行時間短縮を図った。
論文 参考訳(メタデータ) (2026-01-19T05:50:03Z) - VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments [12.689250855332569]
VLA-ANは、複雑な環境での自律ドローンナビゲーションに特化したフレームワークである。
既存の大型航法モデルの4つの大きな制限に対処する。
シングルタスクの成功率は98.1%に達する。
論文 参考訳(メタデータ) (2025-12-17T10:02:55Z) - Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning [50.45036742963495]
我々は,先進的な具体的推論とタスクプランニングを可能にする,多元的多元的プランナーであるOmniEVAを紹介する。
Task-Adaptive 3D Groundingメカニズムは、様々な実施タスクに対してコンテキスト対応の3Dグラウンドを可能にする。
Embodiment-Aware Reasoningフレームワークは、タスクの目標と実施制約を推論ループに組み込む。
論文 参考訳(メタデータ) (2025-09-11T10:32:22Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - FM-Planner: Foundation Model Guided Path Planning for Autonomous Drone Navigation [1.280979348722635]
パスプランニングは自律ドローンの運用において重要な要素であり、複雑な環境を通した安全かつ効率的なナビゲーションを可能にする。
基礎モデル,特に大規模言語モデル (LLM) や視覚言語モデル (VLM) の最近の進歩は,ロボット工学における知覚と知的な意思決定を向上する新たな機会を生み出している。
本稿では,基礎モデル誘導経路プランナー (FM-Planner) を提案する。
論文 参考訳(メタデータ) (2025-05-27T06:41:21Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。