論文の概要: Decentralized Consensus Inference-based Hierarchical Reinforcement Learning for Multi-Constrained UAV Pursuit-Evasion Game
- arxiv url: http://arxiv.org/abs/2506.18126v1
- Date: Sun, 22 Jun 2025 18:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.763464
- Title: Decentralized Consensus Inference-based Hierarchical Reinforcement Learning for Multi-Constrained UAV Pursuit-Evasion Game
- Title(参考訳): 分散コンセンサス推論に基づくマルチ拘束型UAVP-Evasionゲームのための階層型強化学習
- Authors: Xiang Yuming, Li Sizhao, Li Rongpeng, Zhao Zhifeng, Zhang Honggang,
- Abstract要約: 探索回避ゲーム(MC-PEG)における協調的侵入・形成包括作業は,最も困難な課題の1つである。
本稿では,障害物回避,ナビゲーション,形成を管理するための低レベル政策を採用しながら,ローカライゼーションを高レベルポリシーに委譲する新しい2レベルフレームワークを提案する。
高忠実度ソフトウェア・イン・ザ・ループ(SITL)シミュレーションを含む実験結果は、CI-HRLがSwarmの協調回避とタスク補完機能を強化した優れたソリューションを提供することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple quadrotor unmanned aerial vehicle (UAV) systems have garnered widespread research interest and fostered tremendous interesting applications, especially in multi-constrained pursuit-evasion games (MC-PEG). The Cooperative Evasion and Formation Coverage (CEFC) task, where the UAV swarm aims to maximize formation coverage across multiple target zones while collaboratively evading predators, belongs to one of the most challenging issues in MC-PEG, especially under communication-limited constraints. This multifaceted problem, which intertwines responses to obstacles, adversaries, target zones, and formation dynamics, brings up significant high-dimensional complications in locating a solution. In this paper, we propose a novel two-level framework (i.e., Consensus Inference-based Hierarchical Reinforcement Learning (CI-HRL)), which delegates target localization to a high-level policy, while adopting a low-level policy to manage obstacle avoidance, navigation, and formation. Specifically, in the high-level policy, we develop a novel multi-agent reinforcement learning module, Consensus-oriented Multi-Agent Communication (ConsMAC), to enable agents to perceive global information and establish consensus from local states by effectively aggregating neighbor messages. Meanwhile, we leverage an Alternative Training-based Multi-agent proximal policy optimization (AT-M) and policy distillation to accomplish the low-level control. The experimental results, including the high-fidelity software-in-the-loop (SITL) simulations, validate that CI-HRL provides a superior solution with enhanced swarm's collaborative evasion and task completion capabilities.
- Abstract(参考訳): 複数の4段無人航空機 (UAV) システムは幅広い研究の関心を集め、特にMC-PEG (Multi-Constrained pursue-evasion games) において非常に興味深い応用を育ててきた。
UAV群集は、捕食者を共同で回避しながら、複数の標的領域にまたがる形成範囲を最大化することを目的としており、特に通信制限下では、MC-PEGにおいて最も困難な問題の一つである。
この多面的問題は, 障害物, 敵, ターゲットゾーン, 形成ダイナミックスに対する応答に干渉し, 解の探索において, 高次元的な複雑さを生じさせる。
本稿では,新たな2段階フレームワーク(Consensus Inference-based Hierarchical Reinforcement Learning (CI-HRL))を提案する。
具体的には,マルチエージェント強化学習モジュールであるConsensus-oriented Multi-Agent Communication (ConsMAC)を開発した。
一方、代替訓練に基づくマルチエージェント政策最適化(AT-M)と政策蒸留を活用し、低レベル制御を実現する。
高忠実度ソフトウェア・イン・ザ・ループ(SITL)シミュレーションを含む実験結果は、CI-HRLがSwarmの協調回避とタスク補完機能を強化した優れたソリューションを提供することを示す。
関連論文リスト
- Enhancing Aerial Combat Tactics through Hierarchical Multi-Agent Reinforcement Learning [38.15185397658309]
本研究は,模擬空戦シナリオを解析するための階層型多エージェント強化学習フレームワークを提案する。
目的は、予め設定されたシミュレーションでミッションの成功につながる効果的な行動コースを特定することである。
論文 参考訳(メタデータ) (2025-05-13T22:13:48Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Robust multi-agent coordination via evolutionary generation of auxiliary
adversarial attackers [23.15190337027283]
副次的攻撃者生成によるロバスト多エージェント協調(ROMANCE)を提案する。
ROMANCEは、訓練中に多種多様で強力な補助的敵攻撃に遭遇することを可能にし、様々な政策摂動の下で高い堅牢性を達成する。
品質の目標は、エゴシステムのコーディネーション効果を最小限に抑えることであり、攻撃者間の振る舞いを多様化するために、新しい多様性レギュレータを適用することである。
論文 参考訳(メタデータ) (2023-05-10T05:29:47Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO
systems [0.3883460584034765]
そこで本稿では,MADRLをベースとした手法により,達成可能なレート領域の外部境界(パリトバウンダリ)を達成するためのプリコーダを共同で最適化する。
また、無線通信で広く使われている信号の、従来の複雑なベースバンド表現による位相曖昧性の問題にも対処する。
我々の知る限りでは、MA-DDPGフレームワークがプリコーダを協調的に最適化し、達成可能なレート領域のパリトバウンダリを達成できることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2021-09-10T16:50:45Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。