Fugu-MT 論文翻訳(概要): Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration

論文の概要: Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration

arxiv url: http://arxiv.org/abs/2404.03869v2
Date: Wed, 02 Oct 2024 14:52:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 18:38:52.241686
Title: Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration
Title（参考訳）: ゼロショットスケーラブルコラボレーションのための不均一なマルチエージェント強化学習
Authors: Xudong Guo, Daming Shi, Junjie Yu, Wenhui Fan,
Abstract要約: マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。 SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
参考スコア（独自算出の注目度）: 5.326588461041464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of multi-agent reinforcement learning (MARL) is significantly transforming various fields like autonomous vehicle networks. However, real-world multi-agent systems typically contain multiple roles, and the scale of these systems dynamically fluctuates. Consequently, in order to achieve zero-shot scalable collaboration, it is essential that strategies for different roles can be updated flexibly according to the scales, which is still a challenge for current MARL frameworks. To address this, we propose a novel MARL framework named Scalable and Heterogeneous Proximal Policy Optimization (SHPPO), integrating heterogeneity into parameter-shared PPO-based MARL networks. We first leverage a latent network to learn strategy patterns for each agent adaptively. Second, we introduce a heterogeneous layer to be inserted into decision-making networks, whose parameters are specifically generated by the learned latent variables. Our approach is scalable as all the parameters are shared except for the heterogeneous layer, and gains both inter-individual and temporal heterogeneity, allowing SHPPO to adapt effectively to varying scales. SHPPO exhibits superior performance in classic MARL environments like Starcraft Multi-Agent Challenge (SMAC) and Google Research Football (GRF), showcasing enhanced zero-shot scalability, and offering insights into the learned latent variables' impact on team performance by visualization.
Abstract（参考訳）: マルチエージェント強化学習(MARL)の出現は、自動運転車ネットワークのような様々な分野を大きく変えつつある。しかし、現実のマルチエージェントシステムは一般的に複数の役割を持ち、これらのシステムの規模は動的に変動する。したがって、ゼロショットのスケーラブルなコラボレーションを実現するためには、スケールに応じて異なるロールの戦略を柔軟に更新することが不可欠である。そこで本稿では,パラメータ共有型PPOベースのMARLネットワークに不均一性を組み込んだ,スケーラブルで不均一なプロキシポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。まず潜伏ネットワークを利用して各エージェントの戦略パターンを適応的に学習する。第2に,学習潜伏変数によってパラメータが特別に生成される不均一層を決定ネットワークに挿入する。提案手法は, 異種層を除く全てのパラメータが共有され, 個人間および時間的異種性の両方が得られ, SHPPOは様々なスケールに効果的に適応できるため, スケーラブルである。 SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示し、ゼロショットのスケーラビリティの向上を示し、視覚化によるチームパフォーマンスへの影響に関する洞察を提供する。

関連論文リスト

Adaptability in Multi-Agent Reinforcement Learning: A Framework and Unified Review [9.246912481179464]
MARL(Multi-Agent Reinforcement Learning)は、シミュレーションベンチマークと制約付きシナリオ間で複数のエージェントを協調する上で、明らかな効果を示している。この調査は、動的で実世界のマルチエージェントシステムへのデプロイに適したアルゴリズムの開発に寄与する。
論文参考訳（メタデータ） (2025-07-14T10:39:17Z)
Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:07:41Z)
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。 LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文参考訳（メタデータ） (2025-05-21T09:35:43Z)
SPECTra: Scalable Multi-Agent Reinforcement Learning with Permutation-Free Networks [3.7687375904925484]
協調型マルチエージェント強化学習(MARL)では, エージェント数とともに状態空間が指数関数的に増大する置換問題により, サンプル効率が低下する。本稿では,置換等価性とスケーラビリティを保証する新しいエージェントネットワークと非線形ミキシングネットワークを提案する。提案手法は既存の手法に比べて優れた学習性能を実現する。
論文参考訳（メタデータ） (2025-03-14T04:26:51Z)
Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
強化学習を用いたマルチエージェントシステムでは, サンプル効率, 解釈可能性, 伝達性に課題が生じる。本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-14T13:23:18Z)
HyperMARL: Adaptive Hypernetworks for Multi-Agent RL [10.00022425344723]
HyperMARLは、ハイパーネットワークを使用して学習目標を変更することなく、エージェント固有のパラメータを生成するパラメータ共有アプローチである。完全に共有され、非パラメータ共有され、多様性を促進するベースラインと一貫して競合する。これらの知見は,多種多様な環境におけるMARLの汎用的アプローチとしてハイパーネットワークを確立した。
論文参考訳（メタデータ） (2024-12-05T15:09:51Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。要件を満たすために統一行動空間(UAS)を導入する。
論文参考訳（メタデータ） (2024-08-14T09:15:11Z)
Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。 Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-22T12:40:03Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。 Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文参考訳（メタデータ） (2022-10-27T13:24:08Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)
Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。 Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文参考訳（メタデータ） (2020-06-15T22:22:56Z)
Scaling Up Multiagent Reinforcement Learning for Robotic Systems: Learn an Adaptive Sparse Communication Graph [39.48317026356428]
多エージェント強化学習の複雑さはエージェント数に対して指数関数的に増加する。しばしば無視されるMARLの重要な特徴は、エージェント間の相互作用が極めて疎いことである。疎度誘導活性化関数を一般化した適応的スパースアテンション機構を提案する。提案アルゴリズムは,解釈可能なスパース構造を学習し,大規模マルチエージェントシステムを含むアプリケーションにおいて,従来よりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2020-03-02T17:18:25Z)
Generalized Hidden Parameter MDPs Transferable Model-based RL in a Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文参考訳（メタデータ） (2020-02-08T02:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。