論文の概要: Maneuver Decision-Making Through Automatic Curriculum Reinforcement
Learning Without Handcrafted Reward functions
- arxiv url: http://arxiv.org/abs/2307.06152v1
- Date: Wed, 12 Jul 2023 13:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:02:14.649713
- Title: Maneuver Decision-Making Through Automatic Curriculum Reinforcement
Learning Without Handcrafted Reward functions
- Title(参考訳): 手作り報酬機能を持たない自動カリキュラム強化学習による操作意思決定
- Authors: Zhang Hong-Peng
- Abstract要約: 本稿では,航空戦闘における効果的な判断をゼロから学習できる自動カリキュラム強化学習法を提案する。
初期状態の範囲は、異なる難易度のカリキュラムを区別するために使用される。
サブタスクが変化するにつれて、エージェントは徐々に、一連のサブタスクを簡単から困難に完了させるように学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Maneuver decision-making is the core of unmanned combat aerial vehicle for
autonomous air combat. To solve this problem, we propose an automatic
curriculum reinforcement learning method, which enables agents to learn
effective decisions in air combat from scratch. The range of initial states are
used for distinguishing curricula of different difficulty levels, thereby
maneuver decision is divided into a series of sub-tasks from easy to difficult,
and test results are used to change sub-tasks. As sub-tasks change, agents
gradually learn to complete a series of sub-tasks from easy to difficult,
enabling them to make effective maneuvering decisions to cope with various
states without the need to spend effort designing reward functions. The
ablation studied show that the automatic curriculum learning proposed in this
article is an essential component for training through reinforcement learning,
namely, agents cannot complete effective decisions without curriculum learning.
Simulation experiments show that, after training, agents are able to make
effective decisions given different states, including tracking, attacking and
escaping, which are both rational and interpretable.
- Abstract(参考訳): 機動意思決定は、自律飛行のための無人戦闘航空機の中核である。
そこで,本研究では,エージェントが空戦における効果的な判断をスクラッチから学習できる自動カリキュラム強化学習手法を提案する。
初期状態の範囲は、異なる難易度のキュリキュラを識別するために使用されるため、操作決定は一連のサブタスクに分割して容易から困難にし、テスト結果を使用してサブタスクを変更する。
サブタスクが変化するにつれて、エージェントは徐々に一連のサブタスクの完了を容易かつ困難にし、報酬関数の設計に費やすことなく、さまざまな状態に対処する効果的な操作決定を行えるようになる。
本論文で提案する自動カリキュラム学習は,強化学習による学習に不可欠な要素であり,エージェントはカリキュラム学習なしでは効果的な意思決定を完了できない。
シミュレーション実験によれば、訓練後、エージェントは追跡、攻撃、脱出など、合理的かつ解釈可能な異なる状態の効果的な決定をすることができる。
関連論文リスト
- Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Hierarchical Multi-Agent Reinforcement Learning for Air Combat
Maneuvering [40.06500618820166]
複数の異種エージェントを用いた空対空戦闘のための階層型多エージェント強化学習フレームワークを提案する。
低レベルの政策は、正確な部隊戦闘制御のために訓練される。指揮官政策は、事前訓練された低レベルの政策が与えられたミッション目標に基づいて訓練される。
論文 参考訳(メタデータ) (2023-09-20T12:16:00Z) - Maneuver Decision-Making For Autonomous Air Combat Through Curriculum
Learning And Reinforcement Learning With Sparse Rewards [0.0]
航空戦闘演習決定の3つのカリキュラムは、アングルのカリキュラム、距離のカリキュラム、ハイブリッドのカリキュラムである。
その結果, アングルカリキュラムはトレーニングの速度と安定性を高め, エージェントの性能を向上させることができることがわかった。
機動決定結果はミサイルの特性と一致している。
論文 参考訳(メタデータ) (2023-02-12T02:29:12Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Automatic Curricula via Expert Demonstrations [6.651864489482536]
本稿では、強化学習(RL)アプローチとして、エキスパートデモ(ACED)による自動カリキュラムを提案する。
ACEDは、デモンストレーションをセクションに分割し、トレーニングエピソードを異なるセクションからサンプリングされた状態に初期化することによって、専門家のデモ軌跡からキュリキュラを抽出する。
本稿では,ACEDと行動クローニングを組み合わせることで,最大1個の実演と20個の実演で積み重ねタスクを学習できることを示す。
論文 参考訳(メタデータ) (2021-06-16T22:21:09Z) - An Empowerment-based Solution to Robotic Manipulation Tasks with Sparse
Rewards [14.937474939057596]
ロボットマニピュレータは、非常にまばらな指示信号しか提供されていなくても、タスクを達成できることを学ぶことが重要である。
本稿では,任意の標準強化学習アルゴリズムに容易に組み込むことができる本質的な動機づけ手法を提案する。
論文 参考訳(メタデータ) (2020-10-15T19:06:21Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。