論文の概要: Guidance Design for Escape Flight Vehicle Using Evolution Strategy Enhanced Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.03711v1
- Date: Sat, 4 May 2024 06:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 18:34:09.555368
- Title: Guidance Design for Escape Flight Vehicle Using Evolution Strategy Enhanced Deep Reinforcement Learning
- Title(参考訳): 進化戦略強化型深部強化学習を用いたエスケープフライト車両の誘導設計
- Authors: Xiao Hu, Tianshu Wang, Min Gong, Shaoshi Yang,
- Abstract要約: 本研究では,DRLに基づく誘導コマンドと,比例航法に基づく追尾航法(PFV)に基づく誘導コマンドを生成するシナリオを考察する。
EFVの場合、誘導設計の目的は、与えられた回避距離によって課される制約を受けながら、残留速度を段階的に最大化することである。
最初のステップでは、近いポリシー最適化(PPO)アルゴリズムを使用して、EFVのガイダンスコマンドを生成する。
第2のステップでは、PPOの結果をモデルとして、進化戦略(ES)に基づくアルゴリズムの実行を提案する。
- 参考スコア(独自算出の注目度): 6.037202026682975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guidance commands of flight vehicles are a series of data sets with fixed time intervals, thus guidance design constitutes a sequential decision problem and satisfies the basic conditions for using deep reinforcement learning (DRL). In this paper, we consider the scenario where the escape flight vehicle (EFV) generates guidance commands based on DRL and the pursuit flight vehicle (PFV) generates guidance commands based on the proportional navigation method. For the EFV, the objective of the guidance design entails progressively maximizing the residual velocity, subject to the constraint imposed by the given evasion distance. Thus an irregular dynamic max-min problem of extremely large-scale is formulated, where the time instant when the optimal solution can be attained is uncertain and the optimum solution depends on all the intermediate guidance commands generated before. For solving this problem, a two-step strategy is conceived. In the first step, we use the proximal policy optimization (PPO) algorithm to generate the guidance commands of the EFV. The results obtained by PPO in the global search space are coarse, despite the fact that the reward function, the neural network parameters and the learning rate are designed elaborately. Therefore, in the second step, we propose to invoke the evolution strategy (ES) based algorithm, which uses the result of PPO as the initial value, to further improve the quality of the solution by searching in the local space. Simulation results demonstrate that the proposed guidance design method based on the PPO algorithm is capable of achieving a residual velocity of 67.24 m/s, higher than the residual velocities achieved by the benchmark soft actor-critic and deep deterministic policy gradient algorithms. Furthermore, the proposed ES-enhanced PPO algorithm outperforms the PPO algorithm by 2.7\%, achieving a residual velocity of 69.04 m/s.
- Abstract(参考訳): 飛行車両の誘導コマンドは一定時間間隔の一連のデータセットであり、誘導設計はシーケンシャルな決定問題を構成し、深層強化学習(DRL)を使用するための基本的な条件を満たす。
本稿では,脱走飛行車両(EFV)がDRLに基づいて誘導コマンドを生成し,追尾飛行車両(PFV)が比例航法に基づいて誘導コマンドを生成するシナリオを考察する。
EFVの場合、誘導設計の目的は、与えられた回避距離によって課される制約を受けながら、残留速度を段階的に最大化することである。
したがって、超大規模における不規則な動的最大値問題(英語版)が定式化され、最適解が得られる時点の瞬間が不確かであり、最適解は以前に生成された全ての中間指示命令に依存する。
この問題を解決するために、2段階の戦略が考え出される。
最初のステップでは、近いポリシー最適化(PPO)アルゴリズムを使用して、EFVのガイダンスコマンドを生成する。
報奨関数,ニューラルネットワークパラメータ,学習速度が精巧に設計されているにもかかわらず,グローバル検索空間におけるPPOの結果は粗い。
そこで,第2ステップでは,PPOの結果を初期値として用いた進化戦略(ES)に基づくアルゴリズムを導入し,局所空間を探索することで解の質をさらに向上することを提案する。
シミュレーションの結果、PPOアルゴリズムに基づく誘導設計手法は、ベンチマークソフトアクター批判的かつ深い決定論的ポリシー勾配アルゴリズムによって達成された残留速度よりも高い67.24m/sの残留速度を達成することができることが示された。
さらに、ES強化PPOアルゴリズムはPPOアルゴリズムを2.7 %上回り、69.04 m/sの残差速度を達成する。
関連論文リスト
- Dynamic Scheduling for Vehicle-to-Vehicle Communications Enhanced Federated Learning [14.942677904783759]
車両連系学習(VFL)は、連結車両のエッジトレーニングに応用されている。
VFLトレーニング性能を最適化するために最適化問題を定式化する。
本稿では,V2Vを拡張した動的スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:15:53Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - UAV Path Planning Employing MPC- Reinforcement Learning Method for
search and rescue mission [0.0]
複雑で不確実な環境での無人航空路計画(UA V)の課題に取り組む。
本稿では,Long-Short-Term Memory (LSTM) ネットワークに基づくモデル予測制御(MPC)を,Deep Deterministic Policy Gradientアルゴリズムに統合して設計する。
論文 参考訳(メタデータ) (2023-02-21T13:39:40Z) - Reinforcement Learning for Robot Navigation with Adaptive Forward
Simulation Time (AFST) in a Semi-Markov Model [20.91419349793292]
本稿では,この問題を解決するために,半マルコフ決定プロセス (SMDP) と連続的な動作空間を持つDRLベースのナビゲーション手法であるAdaptive Forward Time Simulation (AFST) を提案する。
論文 参考訳(メタデータ) (2021-08-13T10:30:25Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Distributed Multi-agent Meta Learning for Trajectory Design in Wireless
Drone Networks [151.27147513363502]
本稿では,動的無線ネットワーク環境で動作するエネルギー制約型ドローン群に対する軌道設計の問題点について検討する。
値ベース強化学習(VDRL)ソリューションとメタトレイン機構を提案する。
論文 参考訳(メタデータ) (2020-12-06T01:30:12Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。