論文の概要: Self-Supervised Learning to Fly using Efficient Semantic Segmentation and Metric Depth Estimation for Low-Cost Autonomous UAVs
- arxiv url: http://arxiv.org/abs/2510.16624v1
- Date: Sat, 18 Oct 2025 19:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.0694
- Title: Self-Supervised Learning to Fly using Efficient Semantic Segmentation and Metric Depth Estimation for Low-Cost Autonomous UAVs
- Title(参考訳): 効率的なセマンティックセグメンテーションと平均深度推定による低コスト自律型UAVの自己指導型飛行学習
- Authors: Sebastian Mocanu, Emil Slusanschi, Marius Leordeanu,
- Abstract要約: 本稿では,制御室内環境下での小型UAVのための視覚のみの自律飛行システムを提案する。
このシステムは、セマンティックセグメンテーションと単眼深度推定を組み合わせることで、障害物回避、シーン探索、自律型安全な着陸操作を可能にする。
鍵となる革新は適応スケールファクターアルゴリズムであり、非メトリックな単眼深度予測を正確な距離測定に変換する。
- 参考スコア(独自算出の注目度): 5.602128292727329
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a vision-only autonomous flight system for small UAVs operating in controlled indoor environments. The system combines semantic segmentation with monocular depth estimation to enable obstacle avoidance, scene exploration, and autonomous safe landing operations without requiring GPS or expensive sensors such as LiDAR. A key innovation is an adaptive scale factor algorithm that converts non-metric monocular depth predictions into accurate metric distance measurements by leveraging semantic ground plane detection and camera intrinsic parameters, achieving a mean distance error of 14.4 cm. The approach uses a knowledge distillation framework where a color-based Support Vector Machine (SVM) teacher generates training data for a lightweight U-Net student network (1.6M parameters) capable of real-time semantic segmentation. For more complex environments, the SVM teacher can be replaced with a state-of-the-art segmentation model. Testing was conducted in a controlled 5x4 meter laboratory environment with eight cardboard obstacles simulating urban structures. Extensive validation across 30 flight tests in a real-world environment and 100 flight tests in a digital-twin environment demonstrates that the combined segmentation and depth approach increases the distance traveled during surveillance and reduces mission time while maintaining 100% success rates. The system is further optimized through end-to-end learning, where a compact student neural network learns complete flight policies from demonstration data generated by our best-performing method, achieving an 87.5% autonomous mission success rate. This work advances practical vision-based drone navigation in structured environments, demonstrating solutions for metric depth estimation and computational efficiency challenges that enable deployment on resource-constrained platforms.
- Abstract(参考訳): 本稿では,制御室内環境下での小型UAVのための視覚のみの自律飛行システムを提案する。
このシステムはセマンティックセグメンテーションと単眼深度推定を組み合わせることで、GPSやLiDARのような高価なセンサーを必要とせず、障害物回避、シーン探索、自律的な安全な着陸操作を可能にする。
重要な革新は適応スケールファクターアルゴリズムであり、非メトリックな単眼深度予測をセマンティックグラウンドプレーン検出とカメラ固有のパラメータを利用して正確な距離測定に変換し、平均距離誤差を14.4cmとする。
提案手法では,SVM(Support Vector Machine)教師が,リアルタイムセマンティックセグメンテーションが可能な軽量U-Net学生ネットワーク(1.6Mパラメータ)のトレーニングデータを生成する知識蒸留フレームワークを用いる。
より複雑な環境では、SVMの教師は最先端のセグメンテーションモデルに置き換えることができる。
都市構造物を模擬した8枚の段ボール障害物を用いた5×4m環境下で実験を行った。
デジタル双発環境での30回の飛行試験と100回の飛行試験の大規模な検証は、セグメンテーションとディープアプローチの組み合わせによって、監視中に移動した距離が増加し、100%の成功率を維持しながらミッション時間を短縮することを示した。
このシステムはエンド・ツー・エンド・ラーニングによってさらに最適化され、コンパクトな学生ニューラルネットワークは、我々の最高のパフォーマンスで生成された実証データから完全な飛行ポリシーを学習し、87.5%の自律ミッション成功率を達成する。
この研究は、構造化された環境における現実的な視覚に基づくドローンナビゲーションを推進し、リソース制約のあるプラットフォームへの展開を可能にするメートル法深度推定と計算効率の課題に対するソリューションを実証する。
関連論文リスト
- Vision-Based Localization and LLM-based Navigation for Indoor Environments [4.58063394223487]
本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
このモデルは、制限された視聴条件下であっても、テストされた全てのウェイポイントに対して高い信頼性と96%の精度を実現した。
本研究は、オフザシェルフカメラと一般公開フロアプランを用いた、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
論文 参考訳(メタデータ) (2025-08-11T15:59:09Z) - Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning [0.0]
本稿では,GPSを用いた屋内環境における自律ナビゲーションのための高度なAI駆動認識システムを提案する。
システムは、物体検出用YOLOv11、単眼深度推定用深度任意のV2、タイム・オブ・ライト(ToF)センサーと慣性測定ユニット(IMU)を備えたPCBを統合する。
室内テストベッドにおける実験結果は、平均平均精度(mAP50)が0.6、深さ推定平均絶対誤差(MAE)が7.2cm、エンドツーエンドのシステム遅延が1秒以下で達成された。
論文 参考訳(メタデータ) (2025-08-11T12:00:03Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation [9.25068777307471]
本稿では,乱雑な環境下でのアジャイルドローン飛行のための学習型ビジュアルプランナを紹介する。
提案したプランナーは、ミリ秒で衝突のないウェイポイントを生成し、ドローンは、異なる知覚、マッピング、計画モジュールを構築することなく、複雑な環境でアジャイルな操作を実行できる。
論文 参考訳(メタデータ) (2025-02-04T06:42:08Z) - A Multimodal Learning-based Approach for Autonomous Landing of UAV [0.7864304771129751]
本稿では,高度自律着陸のためのマルチモーダル変圧器を用いたDeep Learning検出器を提案する。
個々のセンサーの制限に対処し、多様な天候やセンサーの故障状況においても高い信頼性を達成することで、標準的なアプローチを超越している。
深層Q-Network(DQN)の理論的根拠に基づく強化学習(RL)意思決定モデルを提案する。
論文 参考訳(メタデータ) (2024-05-21T11:14:16Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Large-scale Autonomous Flight with Real-time Semantic SLAM under Dense
Forest Canopy [48.51396198176273]
本研究では,大規模自律飛行とリアルタイムセマンティックマッピングを,挑戦的なアンダーキャノピー環境下で実現可能な統合システムを提案する。
我々は、スキャン全体で関連付けられ、木のトランクモデルと同様にロボットのポーズを制約するために使用されるLiDARデータから、木の幹と地面の平面を検出し、モデル化する。
ドリフト補償機構は、プランナー最適性とコントローラ安定性を維持しつつ、セマンティックSLAM出力を用いたドリフトをリアルタイムで最小化するように設計されている。
論文 参考訳(メタデータ) (2021-09-14T07:24:53Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Vision-Based Autonomous Drone Control using Supervised Learning in
Simulation [0.0]
室内環境におけるMAVの自律的ナビゲーションと着陸にSupervised Learningを用いた視覚に基づく制御手法を提案する。
我々は、低解像度画像とセンサー入力を高レベル制御コマンドにマッピングする畳み込みニューラルネットワーク(CNN)を訓練した。
我々のアプローチは、類似の強化学習アプローチよりも短いトレーニング時間を必要としており、匹敵するSupervised Learningアプローチが直面する手動データ収集の限界を克服する可能性がある。
論文 参考訳(メタデータ) (2020-09-09T13:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。