Fugu-MT 論文翻訳(概要): Evolutionary Enhanced Multi-Agent Reinforcement Learning for Cooperative Air Combat

論文の概要: Evolutionary Enhanced Multi-Agent Reinforcement Learning for Cooperative Air Combat

arxiv url: http://arxiv.org/abs/2605.25091v1
Date: Sun, 24 May 2026 14:13:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.75207
Title: Evolutionary Enhanced Multi-Agent Reinforcement Learning for Cooperative Air Combat
Title（参考訳）: 協調型エアコンの進化的強化型マルチエージェント強化学習
Authors: Chengwei Li, Junlin Liu, Yang Gao,
Abstract要約: 本稿では,ACE-MAPPO(Adversarial Curriculum and Evolutionary-enhanced Multi-Adnt Proximal Policy Optimization)を提案する。遺伝的ソフトアップデート機構を導入し、集団の多様性と局所最適への収束を高める。逆の進化的カリキュラム学習機構は、段階的に困難を増し、適応的なトレーニングを可能にするように設計されている。
参考スコア（独自算出の注目度）: 11.435943926553634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As modern air combat evolves toward beyond-visual-range (BVR) multi-aircraft cooperative engagements, autonomous decision-making for unmanned combat aerial vehicles (UCAVs) faces significant challenges due to high-dimensional state spaces, discrete action commands, and strongly adversarial dynamic environments. To overcome the limitations of existing multi-agent reinforcement learning (MARL) methods in such settings, namely insufficient exploration efficiency, low sample utilization, and poor policy generalization, we propose Adversarial Curriculum and Evolutionary-enhanced Multi-agent Proximal Policy Optimization (ACE-MAPPO), a hybrid learning framework that integrates evolutionary algorithms with MAPPO. Specifically, a genetic soft update mechanism is introduced to enhance population diversity and mitigate convergence to local optima. An evolutionary-augmented prioritized trajectory replay strategy is further employed to improve the utilization of sparse high-value samples. In addition, an adversarial evolutionary curriculum learning mechanism is designed to enable adaptive training with progressively increasing difficulty. Extensive experimental results demonstrate that the proposed method outperforms MAPPO and other baseline algorithms in terms of training stability, convergence speed, and win rate, validating its effectiveness in multi-aircraft cooperative air combat scenarios.
Abstract（参考訳）: 現代の航空戦闘は、視覚圏外(BVR)の多航空機協調活動へと発展していくにつれて、無人戦闘航空車両(UCAV)の自律的な決定は、高次元の状態空間、離散的な行動指令、強敵の動的環境によって大きな課題に直面している。従来のマルチエージェント強化学習(MARL)手法の限界,すなわち探索効率の不足,サンプル利用の低さ,ポリシの一般化の低さを克服するため,MAPPOと進化アルゴリズムを統合するハイブリッド学習フレームワークであるACE-MAPPOを提案する。具体的には、遺伝的ソフトアップデート機構を導入し、個体数の多様性を高め、局所最適への収束を緩和する。さらに, スパース高値試料の利用向上のために, 進化的優先軌道再生戦略が導入された。さらに、段階的に困難を増し、適応的なトレーニングを可能にするために、対角的な進化的カリキュラム学習機構が設計されている。提案手法は, MAPPO などのベースラインアルゴリズムを訓練安定性, 収束速度, 勝利率で上回り, 多空協調空戦シナリオにおける有効性を検証した。

関連論文リスト

Discovering Multiagent Learning Algorithms with Large Language Models [8.649235365712004]
我々は,大規模言語モデルを用いた進化的符号化エージェントであるAlphaEvolveを用いて,新しいマルチエージェント学習アルゴリズムを自動発見する。ゲーム理論学習の2つの異なるパラダイムのための新しい変種を進化させることにより、この枠組みの一般化を実証する。
論文参考訳（メタデータ） (2026-02-18T22:41:00Z)
Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-26T21:53:36Z)
Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models [52.8949080772873]
本稿では,ER-APTと呼ばれる進化型領域逆アプティブチューニング手法を提案する。各トレーニングイテレーションでは、まず従来の勾配法を用いてAEを生成する。次に、AEsを最適化するために、選択、突然変異、交差を含む遺伝的進化機構を適用する。最終進化型AEは、従来の単点対向的な高速チューニングの代わりに、地域ベースの対向最適化を実現するために用いられる。
論文参考訳（メタデータ） (2025-03-17T07:08:47Z)
Aerial Reliable Collaborative Communications for Terrestrial Mobile Users via Evolutionary Multi-Objective Deep Reinforcement Learning [59.660724802286865]
無人航空機(UAV)は、地上通信を改善するための航空基地局(BS)として登場した。この作業では、UAV対応仮想アンテナアレイによる協調ビームフォーミングを使用して、UAVから地上モバイルユーザへの伝送性能を向上させる。
論文参考訳（メタデータ） (2025-02-09T09:15:47Z)
UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文参考訳（メタデータ） (2024-04-11T03:19:22Z)
Cooperative guidance of multiple missiles: a hybrid co-evolutionary approach [0.9176056742068814]
複数のミサイルの協調誘導は、厳密な時間と宇宙の合意の制約を伴う課題である。本稿では,非定常性と協調指導が直面する継続的制御の問題に対処する,新たな自然共進化戦略(NCES)を開発する。高度にスケーラブルな共進化的メカニズムと従来の指導戦略を統合することで,ハイブリッド共同進化的協調指導法(HCCGL)を提案する。
論文参考訳（メタデータ） (2022-08-15T12:59:38Z)
MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文参考訳（メタデータ） (2020-07-30T20:14:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。