Fugu-MT 論文翻訳(概要): Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments

論文の概要: Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments

arxiv url: http://arxiv.org/abs/2207.01251v1
Date: Mon, 4 Jul 2022 08:19:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-05 14:42:56.774089
Title: Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments
Title（参考訳）: 非同期カリキュラム体験リプレイ:未知の動的環境におけるuav自律動作制御のための深い強化学習アプローチ
Authors: Zijian Hu, Xiaoguang Gao, Kaifang Wan, Qianglong Wang, Yiwei Zhai
Abstract要約: 無人航空機(UAV)は軍用機として広く使用されている。マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
参考スコア（独自算出の注目度）: 2.635402406262781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unmanned aerial vehicles (UAVs) have been widely used in military warfare. In this paper, we formulate the autonomous motion control (AMC) problem as a Markov decision process (MDP) and propose an advanced deep reinforcement learning (DRL) method that allows UAVs to execute complex tasks in large-scale dynamic three-dimensional (3D) environments. To overcome the limitations of the prioritized experience replay (PER) algorithm and improve performance, the proposed asynchronous curriculum experience replay (ACER) uses multithreads to asynchronously update the priorities, assigns the true priorities and applies a temporary experience pool to make available experiences of higher quality for learning. A first-in-useless-out (FIUO) experience pool is also introduced to ensure the higher use value of the stored experiences. In addition, combined with curriculum learning (CL), a more reasonable training paradigm of sampling experiences from simple to difficult is designed for training UAVs. By training in a complex unknown environment constructed based on the parameters of a real UAV, the proposed ACER improves the convergence speed by 24.66\% and the convergence result by 5.59\% compared to the state-of-the-art twin delayed deep deterministic policy gradient (TD3) algorithm. The testing experiments carried out in environments with different complexities demonstrate the strong robustness and generalization ability of the ACER agent.
Abstract（参考訳）: 無人航空機(UAV)は軍用機として広く使用されている。本稿では,自動動作制御(AMC)問題をマルコフ決定過程(MDP)として定式化し,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習(DRL)法を提案する。優先体験再生(PER)アルゴリズムの限界を克服し、性能を向上させるため、提案された非同期カリキュラム体験再生(ACER)は、マルチスレッドを使用して優先順位を非同期に更新し、真の優先順位を割り当て、学習の質の高い体験を利用できるように一時的な体験プールを適用する。ファースト・イン・ユース・アウト(FIUO)エクスペリエンスプールも導入され、格納されたエクスペリエンスのより高い使用価値が保証される。さらに,カリキュラム学習(CL)と組み合わせて,UAVを訓練するために,単純から困難までの経験をサンプリングする,より合理的な訓練パラダイムを設計する。実UAVのパラメータに基づいて構築された複雑な未知環境でのトレーニングにより、提案したACERは、最先端の2つの遅延深い決定性ポリシー勾配(TD3)アルゴリズムと比較して、収束速度を24.66 %改善し、収束結果を5.59 %改善する。複雑度が異なる環境で行った実験は、ACERエージェントの強靭性と一般化能力を示す。

関連論文リスト

Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。 RPE-PERは、RPEに基づいてバッファ内での経験を優先する。本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文参考訳（メタデータ） (2025-01-30T02:09:35Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
Efficient Diversity-based Experience Replay for Deep Reinforcement Learning [14.96744975805832]
本稿では, 状態実現における多種多様なサンプルの優先順位付けに決定論的点プロセスを活用する, 多様性に基づく経験リプレイ(DBER)を提案する。我々は,MuJoCo,Atariゲーム,ハビタットのリアルな室内環境におけるロボットマニピュレーションタスクについて広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:51:27Z)
Dual Test-time Training for Out-of-distribution Recommender System [91.15209066874694]
DT3ORと呼ばれるOODレコメンデーションのための新しいDual Test-Time-Trainingフレームワークを提案する。 DT3ORでは、テスト期間中にモデル適応機構を導入し、リコメンデーションモデルを慎重に更新する。我々の知る限りでは、テストタイムトレーニング戦略を通じてOODレコメンデーションに対処する最初の研究である。
論文参考訳（メタデータ） (2024-07-22T13:27:51Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文参考訳（メタデータ） (2024-04-11T03:19:22Z)
A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments [15.959963737956848]
本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
論文参考訳（メタデータ） (2023-12-19T15:39:09Z)
Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-09-18T13:26:40Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
Transferable Deep Reinforcement Learning Framework for Autonomous Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文参考訳（メタデータ） (2021-05-28T08:45:37Z)
A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。 2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文参考訳（メタデータ） (2021-03-11T01:15:26Z)
Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文参考訳（メタデータ） (2020-06-23T17:17:44Z)
Experience Augmentation: Boosting and Accelerating Off-Policy Multi-Agent Reinforcement Learning [6.374722265790792]
本稿では,環境への高速で公平で徹底的な探索に基づく,時間効率と学習の促進を実現するエクスペリエンス向上について述べる。本手法は,MADDPGと組み合わせた2つの同種環境と1つの異種環境における性能を検証することによって実証する。
論文参考訳（メタデータ） (2020-05-19T13:57:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。