論文の概要: Vision-Guided Outdoor Flight and Obstacle Evasion via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.24449v1
- Date: Sat, 23 May 2026 07:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.063666
- Title: Vision-Guided Outdoor Flight and Obstacle Evasion via Reinforcement Learning
- Title(参考訳): 強化学習による視覚誘導型屋外飛行と障害物伝播
- Authors: Shiladitya Dutta, Aayush Gupta, Varun Saran, Avideh Zakhor,
- Abstract要約: 本研究では,立体視深度と視覚慣性計測(VIO)を用いて,未知の環境における障害物を自律的にナビゲートし,目標点に達するような新しいセンサモレータポリシーを提案する。
強化と特権学習のパラダイムを活用して、2段階のプロセスを通じてシミュレーションの方針を訓練する。
野外実験では,学習中に遭遇したことのない障害物環境とドローンプラットフォームの両方へのゼロショット転送が成功している。
- 参考スコア(独自算出の注目度): 2.6769278955255267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although quadcopters boast impressive traversal capabilities enabled by their omnidirectional maneuverability, the need for continuous pilot control in complex environments impedes their application in GNSS and telemetry-denied scenarios. To this end, we propose a novel sensorimotor policy that uses stereo-vision depth and visual-inertial odometry (VIO) to autonomously navigate through obstacles in an unknown environment to reach a goal point. The policy is comprised of a pre-trained autoencoder as the perception head followed by a planning and control LSTM network which outputs velocity commands that can be followed by an off-the-shelf commercial drone. We leverage reinforcement and privileged learning paradigms to train the policy in simulation through a two-stage process: 1) initial training with optimal trajectories generated by a global motion planner acting as a supervisory backbone, 2) further fine-tuning in a curriculum environment. To bridge the sim-to-real gap, we employ domain randomization and reward shaping to create a policy that is both robust to noise and domain shift. In outdoor experiments, our approach achieves successful zero-shot transfer to both obstacle environments and a drone platform that were never encountered during training.
- Abstract(参考訳): クワッドコプターは、全方向の操縦能力によって、目覚ましい航法能力を備えているが、複雑な環境での連続的なパイロット制御の必要性は、GNSSやテレメトリデニッドシナリオでの応用を妨げている。
そこで本研究では,立体視深度と視覚慣性オドメトリー(VIO)を用いて,未知の環境における障害物を自律的にナビゲートし,目標点に達するセンサモレータポリシーを提案する。
このポリシーは、事前訓練されたオートエンコーダからなり、その後に計画と制御のLSTMネットワークが続き、市販の商用ドローンが続く速度コマンドを出力する。
強化と特権学習のパラダイムを活用して,2段階のプロセスを通じてシミュレーションの方針を訓練する。
1) 監督バックボーンとして機能するグローバルモーションプランナーが生成する最適な軌道による初期訓練。
2)カリキュラム環境におけるさらなる微調整。
シミュレーションと現実のギャップを埋めるために、私たちは、ノイズとドメインシフトの両方に対して堅牢なポリシーを作成するために、ドメインのランダム化と報酬のシェーピングを採用しています。
野外実験では,学習中に遭遇したことのない障害物環境とドローンプラットフォームの両方へのゼロショット転送が成功している。
関連論文リスト
- MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving [62.43744546817599]
視覚言語-アクション(VLA)モデルは、エンドツーエンドのモーションプランナーとして有効であるが、クローズドループ設定で評価すると不安定である。
本稿では, VLAモデルの潜在空間における動的駆動シナリオの, リアクティブでマルチエージェントなロールアウトのための新しいフレームワークMAPLEを提案する。
MAPLEはBench2Driveで最先端の駆動性能を実現し、堅牢なE2E自動運転システムのためのスケーラブルでクローズループなマルチエージェントプレイを実演する。
論文 参考訳(メタデータ) (2026-05-13T23:35:14Z) - Mastering Diverse, Unknown, and Cluttered Tracks for Robust Vision-Based Drone Racing [22.63301233637327]
ドローンレースの目標を固定した障害物のないトラックの強化学習手法のほとんどは、未知の乱雑な環境に一般化を残したままであった。
この課題は、レース速度と衝突回避のバランスをとる必要があること、限られた実現可能な空間が、訓練中に地元のオプティマに閉じ込められた政策探索を引き起こすことに起因している。
高速飛行のための政策探索を継続する初期ソフトコリデーショントレーニングフェーズと、堅牢な障害物回避を強制するハードコリデーション改善フェーズの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-10T12:02:48Z) - A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。
本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文 参考訳(メタデータ) (2025-04-21T14:25:23Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments [15.959963737956848]
本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。
追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。
多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
論文 参考訳(メタデータ) (2023-12-19T15:39:09Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - Learning Provably Robust Motion Planners Using Funnel Libraries [6.671201304858938]
本稿では,新しい環境下での成功の確率論的保証を伴う運動プランナの学習方法を提案する。
一般化理論と頑健な制御からツールをまとめることにより、これを実現する。
2つのシミュレートされた例に対して強い保証を提供するためのアプローチの能力を実証する。
論文 参考訳(メタデータ) (2021-11-16T19:11:18Z) - Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation [26.47544415550067]
我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。
閉塞環境における3つの操作課題について評価を行った。
我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2021-11-11T18:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。