論文の概要: Hierarchical Multi-Agent Reinforcement Learning for Air Combat
Maneuvering
- arxiv url: http://arxiv.org/abs/2309.11247v1
- Date: Wed, 20 Sep 2023 12:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 16:20:51.928588
- Title: Hierarchical Multi-Agent Reinforcement Learning for Air Combat
Maneuvering
- Title(参考訳): 空気圧縮機用階層型マルチエージェント強化学習
- Authors: Ardian Selmonaj, Oleg Szehr, Giacomo Del Rio, Alessandro Antonucci,
Adrian Schneider, Michael R\"uegsegger
- Abstract要約: 複数の異種エージェントを用いた空対空戦闘のための階層型多エージェント強化学習フレームワークを提案する。
低レベルの政策は、正確な部隊戦闘制御のために訓練される。指揮官政策は、事前訓練された低レベルの政策が与えられたミッション目標に基づいて訓練される。
- 参考スコア(独自算出の注目度): 40.06500618820166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of artificial intelligence to simulate air-to-air combat
scenarios is attracting increasing attention. To date the high-dimensional
state and action spaces, the high complexity of situation information (such as
imperfect and filtered information, stochasticity, incomplete knowledge about
mission targets) and the nonlinear flight dynamics pose significant challenges
for accurate air combat decision-making. These challenges are exacerbated when
multiple heterogeneous agents are involved. We propose a hierarchical
multi-agent reinforcement learning framework for air-to-air combat with
multiple heterogeneous agents. In our framework, the decision-making process is
divided into two stages of abstraction, where heterogeneous low-level policies
control the action of individual units, and a high-level commander policy
issues macro commands given the overall mission targets. Low-level policies are
trained for accurate unit combat control. Their training is organized in a
learning curriculum with increasingly complex training scenarios and
league-based self-play. The commander policy is trained on mission targets
given pre-trained low-level policies. The empirical validation advocates the
advantages of our design choices.
- Abstract(参考訳): 空対空戦闘シナリオをシミュレートする人工知能の応用が注目を集めている。
高次元の状態と行動空間の現在までに、状況情報(不完全でフィルタリングされた情報、確率性、ミッション目標に関する不完全な知識など)と非線形飛行ダイナミクスの複雑さは、正確な航空戦闘決定に重大な課題をもたらす。
これらの課題は、複数の異種剤が関与する場合にさらに悪化する。
複数の異種エージェントを用いた空対空戦闘のための階層型多エージェント強化学習フレームワークを提案する。
本枠組みでは, 意思決定過程を抽象化の2段階に分割し, 異種低レベル政策が個々の単位の動作を制御し, 高レベルの指揮官政策が全体ミッション目標に応じてマクロコマンドを発行する。
低レベルの政策は正確な戦闘制御のために訓練される。
彼らのトレーニングは、ますます複雑なトレーニングシナリオとリーグベースのセルフプレイを持つ学習カリキュラムで組織されている。
指揮官政策は、事前訓練された低レベル政策を与えられたミッション目標に基づいて訓練される。
実証的検証は、設計選択の利点を提唱します。
関連論文リスト
- Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments [15.959963737956848]
本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。
追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。
多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
論文 参考訳(メタデータ) (2023-12-19T15:39:09Z) - MaskMA: Towards Zero-Shot Multi-Agent Decision Making with Mask-Based
Collaborative Learning [56.00558959816801]
マルチエージェント意思決定(MaskMA)のためのMaskベースの協調学習フレームワークを提案する。
MaskMAは、非集中的な実行によって60の未確認テストマップ上で、77.8%の平均ゼロショット勝利率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-18T09:53:27Z) - Maneuver Decision-Making Through Automatic Curriculum Reinforcement
Learning Without Handcrafted Reward functions [0.0]
本稿では,航空戦闘における効果的な判断をゼロから学習できる自動カリキュラム強化学習法を提案する。
初期状態の範囲は、異なる難易度のカリキュラムを区別するために使用される。
サブタスクが変化するにつれて、エージェントは徐々に、一連のサブタスクを簡単から困難に完了させるように学習する。
論文 参考訳(メタデータ) (2023-07-12T13:20:18Z) - Robust multi-agent coordination via evolutionary generation of auxiliary
adversarial attackers [23.15190337027283]
副次的攻撃者生成によるロバスト多エージェント協調(ROMANCE)を提案する。
ROMANCEは、訓練中に多種多様で強力な補助的敵攻撃に遭遇することを可能にし、様々な政策摂動の下で高い堅牢性を達成する。
品質の目標は、エゴシステムのコーディネーション効果を最小限に抑えることであり、攻撃者間の振る舞いを多様化するために、新しい多様性レギュレータを適用することである。
論文 参考訳(メタデータ) (2023-05-10T05:29:47Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-11T21:53:11Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。