論文の概要: Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning
Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments
- arxiv url: http://arxiv.org/abs/2207.01251v1
- Date: Mon, 4 Jul 2022 08:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 14:42:56.774089
- Title: Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning
Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments
- Title(参考訳): 非同期カリキュラム体験リプレイ:未知の動的環境におけるuav自律動作制御のための深い強化学習アプローチ
- Authors: Zijian Hu, Xiaoguang Gao, Kaifang Wan, Qianglong Wang, Yiwei Zhai
- Abstract要約: 無人航空機(UAV)は軍用機として広く使用されている。
マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。
本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
- 参考スコア(独自算出の注目度): 2.635402406262781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicles (UAVs) have been widely used in military warfare. In
this paper, we formulate the autonomous motion control (AMC) problem as a
Markov decision process (MDP) and propose an advanced deep reinforcement
learning (DRL) method that allows UAVs to execute complex tasks in large-scale
dynamic three-dimensional (3D) environments. To overcome the limitations of the
prioritized experience replay (PER) algorithm and improve performance, the
proposed asynchronous curriculum experience replay (ACER) uses multithreads to
asynchronously update the priorities, assigns the true priorities and applies a
temporary experience pool to make available experiences of higher quality for
learning. A first-in-useless-out (FIUO) experience pool is also introduced to
ensure the higher use value of the stored experiences. In addition, combined
with curriculum learning (CL), a more reasonable training paradigm of sampling
experiences from simple to difficult is designed for training UAVs. By training
in a complex unknown environment constructed based on the parameters of a real
UAV, the proposed ACER improves the convergence speed by 24.66\% and the
convergence result by 5.59\% compared to the state-of-the-art twin delayed deep
deterministic policy gradient (TD3) algorithm. The testing experiments carried
out in environments with different complexities demonstrate the strong
robustness and generalization ability of the ACER agent.
- Abstract(参考訳): 無人航空機(UAV)は軍用機として広く使用されている。
本稿では,自動動作制御(AMC)問題をマルコフ決定過程(MDP)として定式化し,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習(DRL)法を提案する。
優先体験再生(PER)アルゴリズムの限界を克服し、性能を向上させるため、提案された非同期カリキュラム体験再生(ACER)は、マルチスレッドを使用して優先順位を非同期に更新し、真の優先順位を割り当て、学習の質の高い体験を利用できるように一時的な体験プールを適用する。
ファースト・イン・ユース・アウト(FIUO)エクスペリエンスプールも導入され、格納されたエクスペリエンスのより高い使用価値が保証される。
さらに,カリキュラム学習(CL)と組み合わせて,UAVを訓練するために,単純から困難までの経験をサンプリングする,より合理的な訓練パラダイムを設計する。
実UAVのパラメータに基づいて構築された複雑な未知環境でのトレーニングにより、提案したACERは、最先端の2つの遅延深い決定性ポリシー勾配(TD3)アルゴリズムと比較して、収束速度を24.66 %改善し、収束結果を5.59 %改善する。
複雑度が異なる環境で行った実験は、ACERエージェントの強靭性と一般化能力を示す。
関連論文リスト
- Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - Joint Path planning and Power Allocation of a Cellular-Connected UAV
using Apprenticeship Learning via Deep Inverse Reinforcement Learning [7.760962597460447]
本稿では,郊外環境におけるセルラー接続型無人航空機(UAV)の干渉対応共同経路計画と電力配分機構について検討する。
UAVは、そのアップリンクスループットを最大化し、近隣のBSに接続された地上ユーザ機器(UE)への干渉のレベルを最小化することを目的としている。
Q-learning と深層強化学習 (DRL) を併用した逆強化学習 (IRL) による見習い学習手法
論文 参考訳(メタデータ) (2023-06-15T20:50:05Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z) - Guided Exploration with Proximal Policy Optimization using a Single
Demonstration [5.076419064097734]
エージェントを実演と経験の組み合わせで訓練し、初期条件の異なる問題を解く。
エージェントは、自身の過去の軌跡を再生することで、その性能を高め、困難な問題に対処することができる。
私たちの知識を最大限に活用するために、人間の実演を1つだけ使う前に、同等の難易度を持つ3次元環境でタスクを学習することは、これまで考えられなかった。
論文 参考訳(メタデータ) (2020-07-07T10:30:32Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Experience Augmentation: Boosting and Accelerating Off-Policy
Multi-Agent Reinforcement Learning [6.374722265790792]
本稿では,環境への高速で公平で徹底的な探索に基づく,時間効率と学習の促進を実現するエクスペリエンス向上について述べる。
本手法は,MADDPGと組み合わせた2つの同種環境と1つの異種環境における性能を検証することによって実証する。
論文 参考訳(メタデータ) (2020-05-19T13:57:11Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。