論文の概要: Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2003.10423v1
- Date: Mon, 23 Mar 2020 17:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:24:29.652273
- Title: Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習のための進化的人口カリキュラム
- Authors: Qian Long, Zihan Zhou, Abhibav Gupta, Fei Fang, Yi Wu, Xiaolong Wang
- Abstract要約: 進化的人口カリキュラムは、段階的にトレーニングエージェントの人口を徐々に増加させ、マルチエージェント強化学習(MARL)をスケールアップする。
我々は、人気のあるMARLアルゴリズムであるMADDPGにEPCを実装し、エージェントの数が指数関数的に増加するにつれて、我々のアプローチがベースラインを一貫して上回っていることを実証的に示す。
- 参考スコア(独自算出の注目度): 37.22210622432453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent games, the complexity of the environment can grow
exponentially as the number of agents increases, so it is particularly
challenging to learn good policies when the agent population is large. In this
paper, we introduce Evolutionary Population Curriculum (EPC), a curriculum
learning paradigm that scales up Multi-Agent Reinforcement Learning (MARL) by
progressively increasing the population of training agents in a stage-wise
manner. Furthermore, EPC uses an evolutionary approach to fix an objective
misalignment issue throughout the curriculum: agents successfully trained in an
early stage with a small population are not necessarily the best candidates for
adapting to later stages with scaled populations. Concretely, EPC maintains
multiple sets of agents in each stage, performs mix-and-match and fine-tuning
over these sets and promotes the sets of agents with the best adaptability to
the next stage. We implement EPC on a popular MARL algorithm, MADDPG, and
empirically show that our approach consistently outperforms baselines by a
large margin as the number of agents grows exponentially.
- Abstract(参考訳): マルチエージェントゲームでは,エージェントの数が増加するにつれて環境の複雑さが指数関数的に増加するため,エージェントの数が大きくなると適切なポリシーを学ぶことは特に困難である。
本稿では,MARL(Multi-Agent Reinforcement Learning, マルチエージェント強化学習)を段階的に増加させるカリキュラム学習パラダイムであるEPC(Evolutionary Population Curriculum)を紹介する。
さらに、EPCは、カリキュラム全体を通して客観的な不正調整の問題を修正するために進化的アプローチを用いている。
具体的には、EPCは各ステージに複数のエージェントセットを保持し、これらのセットに対してミックス・アンド・マッチと微調整を行い、次のステージに最適な適合性を持つエージェントセットを促進する。
我々は、人気のあるMARLアルゴリズムであるMADDPGにEPCを実装し、エージェントの数が指数関数的に増加するにつれて、我々のアプローチがベースラインを一貫して上回ることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Evolution with Opponent-Learning Awareness [10.689403855269704]
学習エージェントの多種多様な集団が通常のゲームでどのように進化するかを示す。
進化シミュレーションに適した対向学習意識の高速で並列化可能な実装を導出する。
我々は,Hawk-Dove,Stag-Hunt,Rock-Paper-Scissorsの古典ゲームにおいて,20万エージェントのシミュレーションでアプローチを実証した。
論文 参考訳(メタデータ) (2024-10-22T22:49:04Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは進化的アルゴリズムによって専門家エージェントをマルチエージェントシステムに自動的に拡張する汎用的な手法である。
EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。
社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。
進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文 参考訳(メタデータ) (2024-01-09T15:44:44Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Decentralized Adaptive Formation via Consensus-Oriented Multi-Agent
Communication [9.216867817261493]
本稿では,Consensus-based Decentralized Adaptive Formation (Cons-DecAF) フレームワークを提案する。
具体的には、コンセンサス指向のマルチエージェント通信(ConsMAC)という新しいマルチエージェント強化学習手法を開発する。
エージェントの特定の位置を事前に割り当てる代わりに、Hausdorff 距離による変位に基づく生成を用いて、生成効率を著しく向上する。
論文 参考訳(メタデータ) (2023-07-23T10:41:17Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Quantifying environment and population diversity in multi-agent
reinforcement learning [7.548322030720646]
一般化は多エージェント強化学習の大きな課題である。
本稿では,マルチエージェント領域における一般化と多様性の関係を定量的に検討する。
共同演奏者の変動が与える影響をよりよく理解するために,実験では,行動の多様性の環境によらない新しい尺度を導入する。
論文 参考訳(メタデータ) (2021-02-16T18:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。