論文の概要: A Hierarchical Reinforcement Learning Framework for Multi-UAV Combat Using Leader-Follower Strategy
- arxiv url: http://arxiv.org/abs/2501.13132v1
- Date: Wed, 22 Jan 2025 02:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:55:25.846820
- Title: A Hierarchical Reinforcement Learning Framework for Multi-UAV Combat Using Leader-Follower Strategy
- Title(参考訳): リーダ・フォロワー戦略を用いたマルチUAVコンバットの階層的強化学習フレームワーク
- Authors: Jinhui Pang, Jinglin He, Noureldin Mohamed Abdelaal Ahmed Mohamed, Changqing Lin, Zhihui Zhang, Xiaoshuai Hao,
- Abstract要約: マルチUAV空戦は、複数の自律型UAVを含む複雑な作業である。
以前のアプローチは、主にアクション空間を事前定義されたアクションに識別する。
本稿では,リーダ・フォロワー・マルチエージェント・プロキシ・ポリシー最適化戦略を利用した階層型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.095786524987445
- License:
- Abstract: Multi-UAV air combat is a complex task involving multiple autonomous UAVs, an evolving field in both aerospace and artificial intelligence. This paper aims to enhance adversarial performance through collaborative strategies. Previous approaches predominantly discretize the action space into predefined actions, limiting UAV maneuverability and complex strategy implementation. Others simplify the problem to 1v1 combat, neglecting the cooperative dynamics among multiple UAVs. To address the high-dimensional challenges inherent in six-degree-of-freedom space and improve cooperation, we propose a hierarchical framework utilizing the Leader-Follower Multi-Agent Proximal Policy Optimization (LFMAPPO) strategy. Specifically, the framework is structured into three levels. The top level conducts a macro-level assessment of the environment and guides execution policy. The middle level determines the angle of the desired action. The bottom level generates precise action commands for the high-dimensional action space. Moreover, we optimize the state-value functions by assigning distinct roles with the leader-follower strategy to train the top-level policy, followers estimate the leader's utility, promoting effective cooperation among agents. Additionally, the incorporation of a target selector, aligned with the UAVs' posture, assesses the threat level of targets. Finally, simulation experiments validate the effectiveness of our proposed method.
- Abstract(参考訳): マルチUAV空戦は、複数の自律型UAVを含む複雑なタスクであり、航空宇宙と人工知能の両方において進化する分野である。
本稿では,協調戦略による対戦性能の向上をめざす。
以前のアプローチは、主にアクション空間を事前定義されたアクションに分解し、UAVの操作性や複雑な戦略の実装を制限するものだった。
他のものは、複数のUAV間の協調力学を無視して、問題を1v1戦闘に単純化する。
本研究では,6自由度空間に固有の高次元課題に対処し,協調性を向上させるために,LFMAPPO(Leader-Follower Multi-Agent Proximal Policy Optimization)戦略を利用した階層的枠組みを提案する。
具体的には、フレームワークは3つのレベルに分けられる。
トップレベルは環境のマクロレベルの評価を行い、実行ポリシーをガイドします。
中層は、所望の動作の角度を決定する。
底面は高次元のアクション空間に対して正確なアクションコマンドを生成する。
さらに、トップレベルの政策を訓練するために、リーダー・フォロワー戦略と異なる役割を割り当てることにより、国家価値関数を最適化し、エージェント間の効果的な協力を促進する。
さらに、UAVの姿勢に沿ったターゲットセレクタの組み入れは、ターゲットの脅威レベルを評価する。
最後に,提案手法の有効性をシミュレーション実験により検証した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Autonomous Decision Making for UAV Cooperative Pursuit-Evasion Game with Reinforcement Learning [50.33447711072726]
本稿では,マルチロールUAV協調追従ゲームにおける意思決定のための深層強化学習モデルを提案する。
提案手法は,追従回避ゲームシナリオにおけるUAVの自律的意思決定を可能にする。
論文 参考訳(メタデータ) (2024-11-05T10:45:30Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Hierarchical Multi-Agent Reinforcement Learning for Air Combat
Maneuvering [40.06500618820166]
複数の異種エージェントを用いた空対空戦闘のための階層型多エージェント強化学習フレームワークを提案する。
低レベルの政策は、正確な部隊戦闘制御のために訓練される。指揮官政策は、事前訓練された低レベルの政策が与えられたミッション目標に基づいて訓練される。
論文 参考訳(メタデータ) (2023-09-20T12:16:00Z) - Cooperative guidance of multiple missiles: a hybrid co-evolutionary
approach [0.9176056742068814]
複数のミサイルの協調誘導は、厳密な時間と宇宙の合意の制約を伴う課題である。
本稿では,非定常性と協調指導が直面する継続的制御の問題に対処する,新たな自然共進化戦略(NCES)を開発する。
高度にスケーラブルな共進化的メカニズムと従来の指導戦略を統合することで,ハイブリッド共同進化的協調指導法(HCCGL)を提案する。
論文 参考訳(メタデータ) (2022-08-15T12:59:38Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle
Coordination by Multi-Critic Policy Gradient Optimization [16.6182621419268]
農業、災害管理、捜索および救助活動、商業および軍事用途では、ドローンの艦隊を適用する利点は、自律的に協力する能力に由来します。
本稿では,政策ネットワークの安定的な更新と報酬信号開発における類似性を実現するマルチエージェント強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T07:00:44Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。