論文の概要: Maneuver Decision-Making For Autonomous Air Combat Through Curriculum
Learning And Reinforcement Learning With Sparse Rewards
- arxiv url: http://arxiv.org/abs/2302.05838v1
- Date: Sun, 12 Feb 2023 02:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:16:30.190509
- Title: Maneuver Decision-Making For Autonomous Air Combat Through Curriculum
Learning And Reinforcement Learning With Sparse Rewards
- Title(参考訳): カリキュラム学習とスパースリワードによる強化学習による自律空気コンバットのマニキュア決定
- Authors: Yu-Jie Wei, Hong-Peng Zhang, Chang-Qiang Huang
- Abstract要約: 航空戦闘演習決定の3つのカリキュラムは、アングルのカリキュラム、距離のカリキュラム、ハイブリッドのカリキュラムである。
その結果, アングルカリキュラムはトレーニングの速度と安定性を高め, エージェントの性能を向上させることができることがわかった。
機動決定結果はミサイルの特性と一致している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning is an effective way to solve the decision-making
problems. It is a meaningful and valuable direction to investigate autonomous
air combat maneuver decision-making method based on reinforcement learning.
However, when using reinforcement learning to solve the decision-making
problems with sparse rewards, such as air combat maneuver decision-making, it
costs too much time for training and the performance of the trained agent may
not be satisfactory. In order to solve these problems, the method based on
curriculum learning is proposed. First, three curricula of air combat maneuver
decision-making are designed: angle curriculum, distance curriculum and hybrid
curriculum. These courses are used to train air combat agents respectively, and
compared with the original method without any curriculum. The training results
show that angle curriculum can increase the speed and stability of training,
and improve the performance of the agent; distance curriculum can increase the
speed and stability of agent training; hybrid curriculum has a negative impact
on training, because it makes the agent get stuck at local optimum. The
simulation results show that after training, the agent can handle the
situations where targets come from different directions, and the maneuver
decision results are consistent with the characteristics of missile.
- Abstract(参考訳): 強化学習は意思決定問題を解決する効果的な方法である。
強化学習に基づく自律航空戦闘機動決定法を調査する上で,意義があり,貴重な方向である。
しかし, 航空戦闘演習による意思決定などの疎度な報奨による意思決定問題を解決するために強化学習を用いることで, 訓練に要する時間が多くなり, 訓練エージェントの性能が満足できない場合がある。
これらの問題を解決するために,カリキュラム学習に基づく手法を提案する。
第一に、航空戦闘演習決定の3つのカリキュラムは、角度カリキュラム、距離カリキュラム、ハイブリッドカリキュラムである。
これらのコースは、それぞれ航空戦闘エージェントの訓練に使用され、カリキュラムなしでオリジナルの方法と比較される。
トレーニングの結果,アングルカリキュラムはトレーニングの速度と安定性を高め,エージェントの性能を向上させること,遠隔カリキュラムはエージェントトレーニングの速度と安定性を向上させること,ハイブリッドカリキュラムはエージェントを局所的最適に停止させるため,トレーニングに悪影響を及ぼすことを示した。
シミュレーションの結果, エージェントは訓練後, 目標が異なる方向から来る状況に対処でき, 機動決定結果はミサイルの特性と一致していることがわかった。
関連論文リスト
- An Imitative Reinforcement Learning Framework for Autonomous Dogfight [20.150691753213817]
無人戦闘空母(UCAV)は、空戦において決定的な役割を担っている。
本稿では,自律的な探索を可能にしつつ,専門家データを効率的に活用する,新しい擬似強化学習フレームワークを提案する。
提案した枠組みは,UCAVの「プール・ロック・ローンチ」におけるドッグファイト・ポリシーを成功に導くことができる。
論文 参考訳(メタデータ) (2024-06-17T13:59:52Z) - Efficient Mitigation of Bus Bunching through Setter-Based Curriculum Learning [0.47518865271427785]
本稿では,セッターモデルを用いて,行動空間,対向強み,集団強みを自動生成するカリキュラム学習手法を提案する。
自動カリキュラム学習の手法は、動的に選択され、敵対するネットワークによって学習されるカリキュラムを含む。
論文 参考訳(メタデータ) (2024-05-23T18:26:55Z) - Maneuver Decision-Making Through Automatic Curriculum Reinforcement
Learning Without Handcrafted Reward functions [0.0]
本稿では,航空戦闘における効果的な判断をゼロから学習できる自動カリキュラム強化学習法を提案する。
初期状態の範囲は、異なる難易度のカリキュラムを区別するために使用される。
サブタスクが変化するにつれて、エージェントは徐々に、一連のサブタスクを簡単から困難に完了させるように学習する。
論文 参考訳(メタデータ) (2023-07-12T13:20:18Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Reinforcement Learning Based Self-play and State Stacking Techniques for
Noisy Air Combat Environment [1.7403133838762446]
空気戦闘の複雑さは、攻撃的な近距離演習とアジャイルな敵の行動から生じる。
本研究では,エージェントに騒音を観測する空気戦闘シミュレーションを開発した。
ノイズ低減手法として,雑音の多いRL環境に対する状態積み重ね手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T12:23:23Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z) - Learning Agile Locomotion via Adversarial Training [59.03007947334165]
本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。
この敵対的なトレーニングプロセスは、アジャイルの振る舞いを促進するだけでなく、退屈な環境設計の努力を効果的に軽減します。
1つの敵のみを使用した以前の作品とは対照的に、異なる逃走戦略を専門とする敵のアンサンブルを訓練することは、主人公がアジリティを習得するために不可欠である。
論文 参考訳(メタデータ) (2020-08-03T01:20:37Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Model-Based Meta-Reinforcement Learning for Flight with Suspended
Payloads [69.21503033239985]
吊り下げられたペイロードの輸送は、自律的な航空車両にとって困難である。
接続後飛行データから数秒以内に変化力学のモデルを学習するメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-04-23T17:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。