論文の概要: Light Aircraft Game : Basic Implementation and training results analysis
- arxiv url: http://arxiv.org/abs/2506.14164v1
- Date: Tue, 17 Jun 2025 03:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.32048
- Title: Light Aircraft Game : Basic Implementation and training results analysis
- Title(参考訳): 軽航空機ゲーム : 基本実装と訓練結果分析
- Authors: Hanzhong Cao,
- Abstract要約: 本稿では,多エージェント強化学習(MARL)をLAGとして知られる部分的に観測可能で協調的な戦闘環境において検討する。
エージェントアクション、階層制御、No WeaponやShootMissileといった様々な戦闘モードでの報酬設計を含む環境設定について説明する。
HAPPOはPPOの階層型であり,HASACはソフトアクター批判に基づく非政治的手法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates multi-agent reinforcement learning (MARL) in a partially observable, cooperative-competitive combat environment known as LAG. We describe the environment's setup, including agent actions, hierarchical controls, and reward design across different combat modes such as No Weapon and ShootMissile. Two representative algorithms are evaluated: HAPPO, an on-policy hierarchical variant of PPO, and HASAC, an off-policy method based on soft actor-critic. We analyze their training stability, reward progression, and inter-agent coordination capabilities. Experimental results show that HASAC performs well in simpler coordination tasks without weapons, while HAPPO demonstrates stronger adaptability in more dynamic and expressive scenarios involving missile combat. These findings provide insights into the trade-offs between on-policy and off-policy methods in multi-agent settings.
- Abstract(参考訳): 本稿では,多エージェント強化学習(MARL)をLAGとして知られる部分的に観測可能で協調的な戦闘環境において検討する。
エージェントアクション、階層制御、No WeaponやShootMissileといった様々な戦闘モードでの報酬設計を含む環境設定について説明する。
HAPPOはPPOの階層型であり,HASACはソフトアクター批判に基づく非政治的手法である。
トレーニングの安定性、報酬の進行、およびエージェント間の調整能力を分析します。
HAPPOはミサイル戦闘を含むよりダイナミックで表現力のあるシナリオにおいて、より適応性が高いことを示した。
これらの知見は、マルチエージェント環境でのオン・ポリティクスとオフ・ポリティクスの方法のトレードオフに関する洞察を与える。
関連論文リスト
- Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning [15.539607264374242]
マルチエージェント強化学習 (MARL) は, 協調的対人作業において高い性能を示した。
本稿では,自己適応型難易度調整機構を用いた動的カリキュラム学習フレームワークを提案する。
本手法はトレーニングの安定性と最終性能を両立させ,最先端の手法と競合する結果を得る。
論文 参考訳(メタデータ) (2025-06-09T08:38:18Z) - Enhancing Aerial Combat Tactics through Hierarchical Multi-Agent Reinforcement Learning [38.15185397658309]
本研究は,模擬空戦シナリオを解析するための階層型多エージェント強化学習フレームワークを提案する。
目的は、予め設定されたシミュレーションでミッションの成功につながる効果的な行動コースを特定することである。
論文 参考訳(メタデータ) (2025-05-13T22:13:48Z) - A Hierarchical Reinforcement Learning Framework for Multi-UAV Combat Using Leader-Follower Strategy [3.095786524987445]
マルチUAV空戦は、複数の自律型UAVを含む複雑な作業である。
以前のアプローチは、主にアクション空間を事前定義されたアクションに識別する。
本稿では,リーダ・フォロワー・マルチエージェント・プロキシ・ポリシー最適化戦略を利用した階層型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-22T02:41:36Z) - Data-Driven Distributed Common Operational Picture from Heterogeneous Platforms using Multi-Agent Reinforcement Learning [1.3469274919926262]
無人プラットフォームの統合は、状況認識を高め、軍事作戦における「戦争の霧」を軽減することを約束する。
これらのプラットフォームからの膨大なデータの流入を管理することは、Command and Control (C2)システムにとって大きな課題となる。
本研究では,この課題に対処する新しいマルチエージェント学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T16:31:22Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。