論文の概要: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2508.16807v2
- Date: Sat, 11 Oct 2025 16:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.223481
- Title: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
- Title(参考訳): 宇宙空間における自律型UAV飛行ナビゲーション : 強化学習アプローチ
- Authors: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker,
- Abstract要約: オフ・ポリティクスの手法は、高価で安全でない現実世界の微調整を最小化するための重要な特徴である、高いサンプル効率を約束する。
オン・ポリティクス法は、しばしばより優れた訓練安定性を示すが、これはハザード・センス環境における信頼性の高い収束に不可欠である。
この研究は、高精度で安全クリティカルなナビゲーションタスクにおいて、確立されたオン・ポリティクスの信頼性の高い収束は、オフ・ポリティック・アルゴリズムの特異なサンプル効率よりも決定的であることを示す。
- 参考スコア(独自算出の注目度): 0.6533458718563319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
- Abstract(参考訳): 換気ダクトのような限られた産業インフラの自律的UAV検査は、衝突が受け入れられないような堅牢な航法方針を要求する。
Deep Reinforcement Learning(DRL)は、このようなポリシーを開発するための強力なパラダイムを提供する一方で、オン・ポリティクスとオフ・ポリティクスのアルゴリズムの間に重要なトレードオフをもたらす。
オフ・ポリティクスの手法は、高価で安全でない現実世界の微調整を最小化するための重要な特徴である、高いサンプル効率を約束する。
対照的に、政策上の手法は、しばしばより訓練の安定性を示すが、これはハザードセンス環境における信頼性の高い収束に不可欠である。
本稿では,このトレードオフを直接的に検討し,PPO (Proximal Policy Optimization) とSAC (Soft Actor-Critic) を比較し,高忠実度シミュレータ内の手続き的に生成されたダクト内における高精度飛行について検討する。
その結果,PPOは安定かつ衝突のない政策を一貫して学習し,全コースを完了した。
対照的に、SACは完全な解決策を見つけることができず、失敗する前に初期セグメントのみをナビゲートする準最適ポリシーに収束した。
この研究は、高精度で安全クリティカルなナビゲーションタスクにおいて、確立されたオン・ポリティクスの信頼性の高い収束は、オフ・ポリティック・アルゴリズムの特異なサンプル効率よりも決定的であることを示す。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Reinforcement Learning for Robot Navigation with Adaptive Forward
Simulation Time (AFST) in a Semi-Markov Model [20.91419349793292]
本稿では,この問題を解決するために,半マルコフ決定プロセス (SMDP) と連続的な動作空間を持つDRLベースのナビゲーション手法であるAdaptive Forward Time Simulation (AFST) を提案する。
論文 参考訳(メタデータ) (2021-08-13T10:30:25Z) - Decision-Making under On-Ramp merge Scenarios by Distributional Soft
Actor-Critic Algorithm [10.258474373022075]
SDSAC(Shield Distributional Soft Actor-critic)と呼ばれるオフライントレーニングとオンライン修正の枠組みに基づくRLベースのエンドツーエンド意思決定方法を提案する。
その結果,SDSACはベースラインアルゴリズムよりも安全性が高く,運転効率も高いことがわかった。
論文 参考訳(メタデータ) (2021-03-08T03:57:32Z) - COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文 参考訳(メタデータ) (2020-06-16T22:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。