論文の概要: Homotopy Based Reinforcement Learning with Maximum Entropy for
Autonomous Air Combat
- arxiv url: http://arxiv.org/abs/2112.01328v1
- Date: Wed, 1 Dec 2021 09:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:34:21.220876
- Title: Homotopy Based Reinforcement Learning with Maximum Entropy for
Autonomous Air Combat
- Title(参考訳): 自律空戦のための最大エントロピーを用いたホモトピーに基づく強化学習
- Authors: Yiwen Zhu, Zhou Fang, Yuan Zheng, Wenya Wei
- Abstract要約: 強化学習(RL)法はニューラルネットワークを用いて決定時間を著しく短縮することができる。
スパース報酬問題は、その収束速度を制限し、人工的な事前経験報酬は、元のタスクの最適収束方向を容易に逸脱することができる。
本手法では, 相異なる報酬を伴う元のタスクと, 人工的な事前経験報酬を持つ補助タスクとの間のホモトピーパスを追従することで, これらの問題に対処することに焦点を当てた, ホモトピーに基づくソフトアクタ批判法を提案する。
- 参考スコア(独自算出の注目度): 3.839929995011407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Intelligent decision of the unmanned combat aerial vehicle (UCAV) has
long been a challenging problem. The conventional search method can hardly
satisfy the real-time demand during high dynamics air combat scenarios. The
reinforcement learning (RL) method can significantly shorten the decision time
via using neural networks. However, the sparse reward problem limits its
convergence speed and the artificial prior experience reward can easily deviate
its optimal convergent direction of the original task, which raises great
difficulties for the RL air combat application. In this paper, we propose a
homotopy-based soft actor-critic method (HSAC) which focuses on addressing
these problems via following the homotopy path between the original task with
sparse reward and the auxiliary task with artificial prior experience reward.
The convergence and the feasibility of this method are also proved in this
paper. To confirm our method feasibly, we construct a detailed 3D air combat
simulation environment for the RL-based methods training firstly, and we
implement our method in both the attack horizontal flight UCAV task and the
self-play confrontation task. Experimental results show that our method
performs better than the methods only utilizing the sparse reward or the
artificial prior experience reward. The agent trained by our method can reach
more than 98.3% win rate in the attack horizontal flight UCAV task and average
67.4% win rate when confronted with the agents trained by the other two
methods.
- Abstract(参考訳): 無人戦闘航空機(UCAV)のインテリジェントな決定は、長い間難しい問題であった。
従来の探索手法では,高ダイナミックス空戦シナリオにおけるリアルタイムの要求をほとんど満たさない。
強化学習(RL)法はニューラルネットワークを用いて決定時間を著しく短縮することができる。
しかし、スパース報酬問題は収束速度を制限し、人工事前経験報酬は元のタスクの最適収束方向を容易に逸脱することができ、rl航空戦闘アプリケーションにとって大きな困難を生じさせる。
本稿では,本研究で提案するhsac(homotopy-based soft actor-critic method)を提案する。
この手法の収束性や実現可能性も本論文で証明する。
本手法を実証するために,まずRL法を訓練するための詳細な3次元空中戦闘シミュレーション環境を構築し,攻撃水平飛行UCAVタスクと自走対決タスクの両方に本手法を実装した。
実験の結果,提案手法はスパース報酬や人工事前経験報酬のみを利用する方法よりも優れていた。
本手法により訓練されたエージェントは、攻撃水平飛行UCAVタスクにおいて98.3%以上の勝利率と、他の2つの方法により訓練されたエージェントと対決した場合の平均67.4%の勝利率に達することができる。
関連論文リスト
- UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Learning Multi-Pursuit Evasion for Safe Targeted Navigation of Drones [0.0]
本稿では,非同期多段階深部強化学習(AMS-DRL)による対向ニューラルネットワークの学習手法を提案する。
AMS-DRLは、追従者および回避者を二部グラフで非同期に訓練する追従回避ゲームにおいて、敵エージェントを進化させる。
本手法を広範囲なシミュレーションで評価し,航法成功率の高いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-07T01:59:16Z) - UAV Obstacle Avoidance by Human-in-the-Loop Reinforcement in Arbitrary
3D Environment [17.531224704021273]
本稿では, 深部強化学習に基づく無人航空機(UAV)の連続制御に着目した。
本稿では,UAVが飛行中の障害物を自動的に回避できる深層強化学習(DRL)法を提案する。
論文 参考訳(メタデータ) (2023-04-07T01:44:05Z) - Reinforcement Learning Based Self-play and State Stacking Techniques for
Noisy Air Combat Environment [1.7403133838762446]
空気戦闘の複雑さは、攻撃的な近距離演習とアジャイルな敵の行動から生じる。
本研究では,エージェントに騒音を観測する空気戦闘シミュレーションを開発した。
ノイズ低減手法として,雑音の多いRL環境に対する状態積み重ね手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T12:23:23Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning
Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments [2.635402406262781]
無人航空機(UAV)は軍用機として広く使用されている。
マルコフ決定過程(MDP)として自律運動制御(AMC)問題を定式化する。
本稿では,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習法を提案する。
論文 参考訳(メタデータ) (2022-07-04T08:19:39Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Solving reward-collecting problems with UAVs: a comparison of online
optimization and Q-learning [2.4251007104039006]
与えられたスタートからゴールまでの短い経路を識別し、すべての報酬を集め、グリッド上でランダムに動く敵を避けるという課題について検討する。
本稿では,Deep Q-Learningモデル,$varepsilon$-greedyタブ状Q-Learningモデル,オンライン最適化フレームワークの3つの方法の比較を行った。
我々の実験は、ランダムな逆数を持つ単純なグリッドワールド環境を用いて設計され、これらの手法がどのように機能するかを示し、性能、精度、計算時間の観点から比較する。
論文 参考訳(メタデータ) (2021-11-30T22:27:24Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。