論文の概要: Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning
Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments
- arxiv url: http://arxiv.org/abs/2207.01251v1
- Date: Mon, 4 Jul 2022 08:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 14:42:56.774089
- Title: Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning
Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments
- Title(参考訳): 非同期カリキュラム体験リプレイ:未知の動的環境におけるuav自律動作制御のための深い強化学習アプローチ
- Authors: Zijian Hu, Xiaoguang Gao, Kaifang Wan, Qianglong Wang, Yiwei Zhai
- Abstract要約: 無人航空機(UAV)は軍用機として広く使用されている。
マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。
本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
- 参考スコア(独自算出の注目度): 2.635402406262781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicles (UAVs) have been widely used in military warfare. In
this paper, we formulate the autonomous motion control (AMC) problem as a
Markov decision process (MDP) and propose an advanced deep reinforcement
learning (DRL) method that allows UAVs to execute complex tasks in large-scale
dynamic three-dimensional (3D) environments. To overcome the limitations of the
prioritized experience replay (PER) algorithm and improve performance, the
proposed asynchronous curriculum experience replay (ACER) uses multithreads to
asynchronously update the priorities, assigns the true priorities and applies a
temporary experience pool to make available experiences of higher quality for
learning. A first-in-useless-out (FIUO) experience pool is also introduced to
ensure the higher use value of the stored experiences. In addition, combined
with curriculum learning (CL), a more reasonable training paradigm of sampling
experiences from simple to difficult is designed for training UAVs. By training
in a complex unknown environment constructed based on the parameters of a real
UAV, the proposed ACER improves the convergence speed by 24.66\% and the
convergence result by 5.59\% compared to the state-of-the-art twin delayed deep
deterministic policy gradient (TD3) algorithm. The testing experiments carried
out in environments with different complexities demonstrate the strong
robustness and generalization ability of the ACER agent.
- Abstract(参考訳): 無人航空機(UAV)は軍用機として広く使用されている。
本稿では,自動動作制御(AMC)問題をマルコフ決定過程(MDP)として定式化し,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習(DRL)法を提案する。
優先体験再生(PER)アルゴリズムの限界を克服し、性能を向上させるため、提案された非同期カリキュラム体験再生(ACER)は、マルチスレッドを使用して優先順位を非同期に更新し、真の優先順位を割り当て、学習の質の高い体験を利用できるように一時的な体験プールを適用する。
ファースト・イン・ユース・アウト(FIUO)エクスペリエンスプールも導入され、格納されたエクスペリエンスのより高い使用価値が保証される。
さらに,カリキュラム学習(CL)と組み合わせて,UAVを訓練するために,単純から困難までの経験をサンプリングする,より合理的な訓練パラダイムを設計する。
実UAVのパラメータに基づいて構築された複雑な未知環境でのトレーニングにより、提案したACERは、最先端の2つの遅延深い決定性ポリシー勾配(TD3)アルゴリズムと比較して、収束速度を24.66 %改善し、収束結果を5.59 %改善する。
複雑度が異なる環境で行った実験は、ACERエージェントの強靭性と一般化能力を示す。
関連論文リスト
- Dual Test-time Training for Out-of-distribution Recommender System [91.15209066874694]
DT3ORと呼ばれるOODレコメンデーションのための新しいDual Test-Time-Trainingフレームワークを提案する。
DT3ORでは、テスト期間中にモデル適応機構を導入し、リコメンデーションモデルを慎重に更新する。
我々の知る限りでは、テストタイムトレーニング戦略を通じてOODレコメンデーションに対処する最初の研究である。
論文 参考訳(メタデータ) (2024-07-22T13:27:51Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments [15.959963737956848]
本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。
追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。
多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
論文 参考訳(メタデータ) (2023-12-19T15:39:09Z) - Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Experience Augmentation: Boosting and Accelerating Off-Policy
Multi-Agent Reinforcement Learning [6.374722265790792]
本稿では,環境への高速で公平で徹底的な探索に基づく,時間効率と学習の促進を実現するエクスペリエンス向上について述べる。
本手法は,MADDPGと組み合わせた2つの同種環境と1つの異種環境における性能を検証することによって実証する。
論文 参考訳(メタデータ) (2020-05-19T13:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。