論文の概要: Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration
- arxiv url: http://arxiv.org/abs/2404.03869v1
- Date: Fri, 5 Apr 2024 03:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:16:00.493401
- Title: Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration
- Title(参考訳): ゼロショットスケーラブルコラボレーションのための不均一なマルチエージェント強化学習
- Authors: Xudong Guo, Daming Shi, Junjie Yu, Wenhui Fan,
- Abstract要約: スケーラブルで不均一なポリシー最適化(SHPPO)という新しいフレームワークを提案する。
提案手法は,最先端のバックボーンPPOベースのアルゴリズムであるSHPPOをベースとしている。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において、ベースラインよりも優れたパフォーマンスを示す
- 参考スコア(独自算出の注目度): 5.326588461041464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of multi-agent systems, especially the success of multi-agent reinforcement learning (MARL), is reshaping our future across diverse domains like autonomous vehicle networks. However, MARL still faces significant challenges, particularly in achieving zero-shot scalability, which allows trained MARL models to be directly applied to unseen tasks with varying numbers of agents. In addition, real-world multi-agent systems usually contain agents with different functions and strategies, while the existing scalable MARL methods only have limited heterogeneity. To address this, we propose a novel MARL framework named Scalable and Heterogeneous Proximal Policy Optimization (SHPPO), integrating heterogeneity into parameter-shared PPO-based MARL networks. we first leverage a latent network to adaptively learn strategy patterns for each agent. Second, we introduce a heterogeneous layer for decision-making, whose parameters are specifically generated by the learned latent variables. Our approach is scalable as all the parameters are shared except for the heterogeneous layer, and gains both inter-individual and temporal heterogeneity at the same time. We implement our approach based on the state-of-the-art backbone PPO-based algorithm as SHPPO, while our approach is agnostic to the backbone and can be seamlessly plugged into any parameter-shared MARL method. SHPPO exhibits superior performance over the baselines such as MAPPO and HAPPO in classic MARL environments like Starcraft Multi-Agent Challenge (SMAC) and Google Research Football (GRF), showcasing enhanced zero-shot scalability and offering insights into the learned latent representation's impact on team performance by visualization.
- Abstract(参考訳): マルチエージェントシステムの台頭、特にマルチエージェント強化学習(MARL)の成功は、自動運転車ネットワークのようなさまざまな領域で私たちの未来を変えつつある。
しかし、MARLは、特にゼロショットスケーラビリティの達成において大きな課題に直面しており、訓練済みのMARLモデルは、さまざまなエージェントで見えないタスクに直接適用することができる。
加えて、実世界のマルチエージェントシステムは、通常、異なる機能と戦略を持つエージェントを含むが、既存のスケーラブルなMARLメソッドは限られた不均一性しか持たない。
そこで本稿では,パラメータ共有型PPOベースのMARLネットワークに不均一性を組み込んだ,スケーラブルで不均一なプロキシポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
まず潜伏ネットワークを利用して 各エージェントの戦略パターンを適応的に学習します
第2に,学習した潜伏変数によってパラメータが特別に生成される不均一な意思決定層を導入する。
我々のアプローチは、不均一層を除いて全てのパラメータが共有されるためスケーラブルであり、同時に個人間および時間的不均一性を得る。
我々は,現在最先端のバックボーンPPOベースのアルゴリズムをSHPPOとして実装し,そのアプローチはバックボーンとは無関係であり,パラメータ共有MARL法にシームレスに接続することができる。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境でMAPPOやHAPPOのようなベースラインよりも優れたパフォーマンスを示し、拡張されたゼロショットのスケーラビリティを示し、視覚化によって学習された潜在表現がチームパフォーマンスに与える影響についての洞察を提供する。
関連論文リスト
- AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。
従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。
要件を満たすために統一行動空間(UAS)を導入する。
論文 参考訳(メタデータ) (2024-08-14T09:15:11Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z) - Scaling Up Multiagent Reinforcement Learning for Robotic Systems: Learn
an Adaptive Sparse Communication Graph [39.48317026356428]
多エージェント強化学習の複雑さはエージェント数に対して指数関数的に増加する。
しばしば無視されるMARLの重要な特徴は、エージェント間の相互作用が極めて疎いことである。
疎度誘導活性化関数を一般化した適応的スパースアテンション機構を提案する。
提案アルゴリズムは,解釈可能なスパース構造を学習し,大規模マルチエージェントシステムを含むアプリケーションにおいて,従来よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2020-03-02T17:18:25Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。