論文の概要: Deep Reinforcement Learning-based UAV Navigation and Control: A Soft
Actor-Critic with Hindsight Experience Replay Approach
- arxiv url: http://arxiv.org/abs/2106.01016v1
- Date: Wed, 2 Jun 2021 08:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:17:28.828598
- Title: Deep Reinforcement Learning-based UAV Navigation and Control: A Soft
Actor-Critic with Hindsight Experience Replay Approach
- Title(参考訳): 深層強化学習に基づくUAVナビゲーションと制御:隠れ経験リプレイアプローチによるソフトアクター批判
- Authors: Myoung Hoon Lee, Jun Moon
- Abstract要約: 深部強化学習 (DRL) アルゴリズムのクラスとして, 後視体験リプレイ (HER) を用いたSACHER (Software actor-critic, SAC) を提案する。
HERはSACのサンプル効率を向上するため,SACHERはSACよりも高速かつ高精度に最適な結果が得られることを示す。
無人航空機(UAV)の航法・制御問題にSACHERを適用し,SACHERが最適航法経路を生成する。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose SACHER (soft actor-critic (SAC) with hindsight
experience replay (HER)), which constitutes a class of deep reinforcement
learning (DRL) algorithms. SAC is known as an off-policy model-free DRL
algorithm based on the maximum entropy framework, which outperforms earlier DRL
algorithms in terms of exploration, robustness and learning performance.
However, in SAC, maximizing the entropy-augmented objective may degrade the
optimality of the learning outcomes. HER is known as a sample-efficient replay
method that enhances the performance of off-policy DRL algorithms by allowing
them to learn from both failures and successes. We apply HER to SAC and propose
SACHER to improve the learning performance of SAC. More precisely, SACHER
achieves the desired optimal outcomes faster and more accurately than SAC,
since HER improves the sample efficiency of SAC. We apply SACHER to the
navigation and control problem of unmanned aerial vehicles (UAVs), where SACHER
generates the optimal navigation path of the UAV under various obstacles in
operation. Specifically, we show the effectiveness of SACHER in terms of the
tracking error and cumulative reward in UAV operation by comparing them with
those of state-of-the-art DRL algorithms, SAC and DDPG. Note that SACHER in UAV
navigation and control problems can be applied to arbitrary models of UAVs.
- Abstract(参考訳): 本稿では,深部強化学習(DRL)アルゴリズムのクラスを構成するHER(Handsight Experience Replay)を備えたSACHER(Software actor-critic, SAC)を提案する。
SACは、最大エントロピーフレームワークに基づく非政治モデルフリーのDRLアルゴリズムとして知られており、探索、堅牢性、学習性能の点で、以前のDRLアルゴリズムよりも優れている。
しかし, SACでは, エントロピー向上目標の最大化は学習結果の最適性を低下させる可能性がある。
drlアルゴリズムの性能を向上させるサンプル効率の高いリプレイ手法として知られ、失敗と成功の両方から学べるようにしている。
SAC に HER を適用し,SAC の学習性能を向上させるために SACHER を提案する。
より正確には、HERはSACのサンプル効率を改善するので、SACHERはSACよりも迅速により正確に所望の最適結果を達成する。
本研究では,無人航空機(UAV)の航法制御問題にSACHERを適用し,各種障害物下でのUAVの最適航法経路を生成する。
具体的には,現在最先端のDRLアルゴリズムであるSACとDDPGと比較することにより,UAV動作における追跡誤差と累積報酬の観点からSACHERの有効性を示す。
なお、UAVナビゲーションおよび制御問題におけるSACHERは、UAVの任意のモデルに適用可能である。
関連論文リスト
- UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - DSAC-T: Distributional Soft Actor-Critic with Three Refinements [31.590177154247485]
分散ソフトアクター批判 (DSAC) と呼ばれる非政治的RLアルゴリズムを導入する。
標準DSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。
本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
論文 参考訳(メタデータ) (2023-10-09T16:52:48Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。