論文の概要: Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration
- arxiv url: http://arxiv.org/abs/2404.03869v1
- Date: Fri, 5 Apr 2024 03:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:16:00.493401
- Title: Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration
- Title(参考訳): ゼロショットスケーラブルコラボレーションのための不均一なマルチエージェント強化学習
- Authors: Xudong Guo, Daming Shi, Junjie Yu, Wenhui Fan,
- Abstract要約: スケーラブルで不均一なポリシー最適化(SHPPO)という新しいフレームワークを提案する。
提案手法は,最先端のバックボーンPPOベースのアルゴリズムであるSHPPOをベースとしている。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において、ベースラインよりも優れたパフォーマンスを示す
- 参考スコア(独自算出の注目度): 5.326588461041464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of multi-agent systems, especially the success of multi-agent reinforcement learning (MARL), is reshaping our future across diverse domains like autonomous vehicle networks. However, MARL still faces significant challenges, particularly in achieving zero-shot scalability, which allows trained MARL models to be directly applied to unseen tasks with varying numbers of agents. In addition, real-world multi-agent systems usually contain agents with different functions and strategies, while the existing scalable MARL methods only have limited heterogeneity. To address this, we propose a novel MARL framework named Scalable and Heterogeneous Proximal Policy Optimization (SHPPO), integrating heterogeneity into parameter-shared PPO-based MARL networks. we first leverage a latent network to adaptively learn strategy patterns for each agent. Second, we introduce a heterogeneous layer for decision-making, whose parameters are specifically generated by the learned latent variables. Our approach is scalable as all the parameters are shared except for the heterogeneous layer, and gains both inter-individual and temporal heterogeneity at the same time. We implement our approach based on the state-of-the-art backbone PPO-based algorithm as SHPPO, while our approach is agnostic to the backbone and can be seamlessly plugged into any parameter-shared MARL method. SHPPO exhibits superior performance over the baselines such as MAPPO and HAPPO in classic MARL environments like Starcraft Multi-Agent Challenge (SMAC) and Google Research Football (GRF), showcasing enhanced zero-shot scalability and offering insights into the learned latent representation's impact on team performance by visualization.
- Abstract(参考訳): マルチエージェントシステムの台頭、特にマルチエージェント強化学習(MARL)の成功は、自動運転車ネットワークのようなさまざまな領域で私たちの未来を変えつつある。
しかし、MARLは、特にゼロショットスケーラビリティの達成において大きな課題に直面しており、訓練済みのMARLモデルは、さまざまなエージェントで見えないタスクに直接適用することができる。
加えて、実世界のマルチエージェントシステムは、通常、異なる機能と戦略を持つエージェントを含むが、既存のスケーラブルなMARLメソッドは限られた不均一性しか持たない。
そこで本稿では,パラメータ共有型PPOベースのMARLネットワークに不均一性を組み込んだ,スケーラブルで不均一なプロキシポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
まず潜伏ネットワークを利用して 各エージェントの戦略パターンを適応的に学習します
第2に,学習した潜伏変数によってパラメータが特別に生成される不均一な意思決定層を導入する。
我々のアプローチは、不均一層を除いて全てのパラメータが共有されるためスケーラブルであり、同時に個人間および時間的不均一性を得る。
我々は,現在最先端のバックボーンPPOベースのアルゴリズムをSHPPOとして実装し,そのアプローチはバックボーンとは無関係であり,パラメータ共有MARL法にシームレスに接続することができる。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境でMAPPOやHAPPOのようなベースラインよりも優れたパフォーマンスを示し、拡張されたゼロショットのスケーラビリティを示し、視覚化によって学習された潜在表現がチームパフォーマンスに与える影響についての洞察を提供する。
関連論文リスト
- MAexp: A Generic Platform for RL-based Multi-Agent Exploration [5.672198570643586]
既存のプラットフォームはサンプリングの非効率性とマルチエージェント強化学習(MARL)アルゴリズムの多様性の欠如に悩まされている。
我々は、多エージェント探索のための汎用プラットフォームであるMAexpを提案し、最先端のMARLアルゴリズムと代表シナリオを統合した。
論文 参考訳(メタデータ) (2024-04-19T12:00:10Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [20.29854058559947]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
本稿では,通信ベースMAPFソルバの性能向上を図るために,EPH(Ensembling Prioritized Hybrid Policies)を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent
Policy Optimization [1.5501208213584152]
本稿では,MARL(Multi-Agent Reinforcement Learning)設定における課題を克服するため,ミラー・ダイスン法の拡張を提案する。
提案したヘテロジニアスミラーDescent Policy Optimization (HAMDPO) アルゴリズムは,マルチエージェント・アドバンスト分解補題を利用する。
我々は,Multi-Agent MuJoCoおよびStarCraftIIタスク上でHAMDPOを評価し,最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-13T10:18:10Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。