論文の概要: Reinforcement Learning Based Self-play and State Stacking Techniques for
Noisy Air Combat Environment
- arxiv url: http://arxiv.org/abs/2303.03068v1
- Date: Mon, 6 Mar 2023 12:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:14:20.340777
- Title: Reinforcement Learning Based Self-play and State Stacking Techniques for
Noisy Air Combat Environment
- Title(参考訳): 強化学習に基づく騒音環境の自己学習と状態スタッキング技術
- Authors: Ahmet Semih Tasbas, Safa Onur Sahin, Nazim Kemal Ure
- Abstract要約: 空気戦闘の複雑さは、攻撃的な近距離演習とアジャイルな敵の行動から生じる。
本研究では,エージェントに騒音を観測する空気戦闘シミュレーションを開発した。
ノイズ低減手法として,雑音の多いRL環境に対する状態積み重ね手法を提案する。
- 参考スコア(独自算出の注目度): 1.7403133838762446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has recently proven itself as a powerful
instrument for solving complex problems and even surpassed human performance in
several challenging applications. This signifies that RL algorithms can be used
in the autonomous air combat problem, which has been studied for many years.
The complexity of air combat arises from aggressive close-range maneuvers and
agile enemy behaviors. In addition to these complexities, there may be
uncertainties in real-life scenarios due to sensor errors, which prevent
estimation of the actual position of the enemy. In this case, autonomous
aircraft should be successful even in the noisy environments. In this study, we
developed an air combat simulation, which provides noisy observations to the
agents, therefore, make the air combat problem even more challenging. Thus, we
present a state stacking method for noisy RL environments as a noise reduction
technique. In our extensive set of experiments, the proposed method
significantly outperforms the baseline algorithms in terms of the winning
ratio, where the performance improvement is even more pronounced in the high
noise levels. In addition, we incorporate a self-play scheme to our training
process by periodically updating the enemy with a frozen copy of the training
agent. By this way, the training agent performs air combat simulations to an
enemy with smarter strategies, which improves the performance and robustness of
the agents. In our simulations, we demonstrate that the self-play scheme
provides important performance gains compared to the classical RL training.
- Abstract(参考訳): 強化学習(rl)は、最近、複雑な問題を解決する強力な手段として証明され、いくつかの挑戦的なアプリケーションで人間のパフォーマンスを超えている。
このことは、RLアルゴリズムが長年研究されてきた自律空気戦闘問題に利用できることを示している。
空気戦闘の複雑さは、攻撃的な近距離演習とアジャイルな敵の行動から生じる。
これらの複雑さに加えて、センサーエラーによる現実のシナリオにも不確実性があり、敵の実際の位置を推定できない。
この場合、自律飛行はノイズの多い環境でも成功すべきである。
そこで,本研究では,エージェントにうるさく観察する航空戦闘シミュレーションを考案し,航空戦闘問題をさらに困難にした。
そこで, 雑音低減手法として, 雑音下rl環境の状態重ね合わせ手法を提案する。
提案手法は, 提案手法は, 高い騒音レベルにおいて, 性能向上がより顕著である点において, 勝利率の点において, ベースラインアルゴリズムを著しく上回っている。
また,トレーニングエージェントの凍結コピーで定期的に敵を更新することにより,自己プレイ方式をトレーニングプロセスに組み込む。
このようにして、訓練エージェントは、より賢い戦略で敵に航空戦闘シミュレーションを行い、エージェントの性能と堅牢性を向上させる。
シミュレーションでは,従来のRLトレーニングと比較して,自己演奏方式が重要なパフォーマンス向上をもたらすことを示した。
関連論文リスト
- Intercepting Unauthorized Aerial Robots in Controlled Airspace Using Reinforcement Learning [2.519319150166215]
制御空域における無人航空機(UAV)の増殖は重大なリスクをもたらす。
この作業は、強化学習(RL)を用いることで、そのような脅威を管理することのできる堅牢で適応的なシステムの必要性に対処する。
固定翼UAV追跡エージェントの訓練にRLを用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-09T14:45:47Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Adversarial Attacks on Reinforcement Learning Agents for Command and Control [6.05332129899857]
近年の研究では、学習に基づくアプローチは敵の摂動に非常に敏感であることが示されている。
本稿では,敵が制御する環境において,指揮制御タスクのために訓練されたエージェントの堅牢性について検討する。
実験により,これらのアルゴリズムを用いて訓練したエージェントは,敵が注入したノイズに非常に敏感であることを示す。
論文 参考訳(メタデータ) (2024-05-02T19:28:55Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Autonomous Agent for Beyond Visual Range Air Combat: A Deep
Reinforcement Learning Approach [0.2578242050187029]
本研究は, 遠近視域(BVR)空戦シミュレーション環境において動作可能な深層強化学習に基づくエージェントの開発に寄与する。
本稿では,BVR戦闘におけるその役割を学習し,改善することができる高性能戦闘機のエージェント構築の概要について述べる。
また、仮想シミュレーションを用いて実際のパイロットの能力を調べ、訓練されたエージェントと同じ環境で対話し、パフォーマンスを比較することを望んでいる。
論文 参考訳(メタデータ) (2023-04-19T13:54:37Z) - Anchored Learning for On-the-Fly Adaptation -- Extended Technical Report [45.123633153460034]
本研究は「アンカー批評家」であり, 実空間を横断する強化学習(RL)エージェントの堅牢性を高めるための新たな戦略である。
そこでは、政策が頻繁に遭遇する状態に対して高い報酬を維持するが、稀で重要なシナリオではパフォーマンスを失う。
提案手法は,シム・トゥ・シム・ジム・タスクやシム・トゥ・リアルシナリオにおいて,制御可能な安定飛行を維持しつつ,ほぼ50%の消費電力削減を実現することができることを示す。
論文 参考訳(メタデータ) (2023-01-17T16:16:53Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Homotopy Based Reinforcement Learning with Maximum Entropy for
Autonomous Air Combat [3.839929995011407]
強化学習(RL)法はニューラルネットワークを用いて決定時間を著しく短縮することができる。
スパース報酬問題は、その収束速度を制限し、人工的な事前経験報酬は、元のタスクの最適収束方向を容易に逸脱することができる。
本手法では, 相異なる報酬を伴う元のタスクと, 人工的な事前経験報酬を持つ補助タスクとの間のホモトピーパスを追従することで, これらの問題に対処することに焦点を当てた, ホモトピーに基づくソフトアクタ批判法を提案する。
論文 参考訳(メタデータ) (2021-12-01T09:37:55Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。