Fugu-MT 論文翻訳(概要): Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement Learning

論文の概要: Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2003.10423v1
Date: Mon, 23 Mar 2020 17:49:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 23:24:29.652273
Title: Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習のための進化的人口カリキュラム
Authors: Qian Long, Zihan Zhou, Abhibav Gupta, Fei Fang, Yi Wu, Xiaolong Wang
Abstract要約: 進化的人口カリキュラムは、段階的にトレーニングエージェントの人口を徐々に増加させ、マルチエージェント強化学習(MARL)をスケールアップする。我々は、人気のあるMARLアルゴリズムであるMADDPGにEPCを実装し、エージェントの数が指数関数的に増加するにつれて、我々のアプローチがベースラインを一貫して上回っていることを実証的に示す。
参考スコア（独自算出の注目度）: 37.22210622432453
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In multi-agent games, the complexity of the environment can grow exponentially as the number of agents increases, so it is particularly challenging to learn good policies when the agent population is large. In this paper, we introduce Evolutionary Population Curriculum (EPC), a curriculum learning paradigm that scales up Multi-Agent Reinforcement Learning (MARL) by progressively increasing the population of training agents in a stage-wise manner. Furthermore, EPC uses an evolutionary approach to fix an objective misalignment issue throughout the curriculum: agents successfully trained in an early stage with a small population are not necessarily the best candidates for adapting to later stages with scaled populations. Concretely, EPC maintains multiple sets of agents in each stage, performs mix-and-match and fine-tuning over these sets and promotes the sets of agents with the best adaptability to the next stage. We implement EPC on a popular MARL algorithm, MADDPG, and empirically show that our approach consistently outperforms baselines by a large margin as the number of agents grows exponentially.
Abstract（参考訳）: マルチエージェントゲームでは,エージェントの数が増加するにつれて環境の複雑さが指数関数的に増加するため,エージェントの数が大きくなると適切なポリシーを学ぶことは特に困難である。本稿では,MARL(Multi-Agent Reinforcement Learning, マルチエージェント強化学習)を段階的に増加させるカリキュラム学習パラダイムであるEPC(Evolutionary Population Curriculum)を紹介する。さらに、EPCは、カリキュラム全体を通して客観的な不正調整の問題を修正するために進化的アプローチを用いている。具体的には、EPCは各ステージに複数のエージェントセットを保持し、これらのセットに対してミックス・アンド・マッチと微調整を行い、次のステージに最適な適合性を持つエージェントセットを促進する。我々は、人気のあるMARLアルゴリズムであるMADDPGにEPCを実装し、エージェントの数が指数関数的に増加するにつれて、我々のアプローチがベースラインを一貫して上回ることを示す。

関連論文リスト

Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Evolution with Opponent-Learning Awareness [10.689403855269704]
学習エージェントの多種多様な集団が通常のゲームでどのように進化するかを示す。進化シミュレーションに適した対向学習意識の高速で並列化可能な実装を導出する。我々は,Hawk-Dove,Stag-Hunt,Rock-Paper-Scissorsの古典ゲームにおいて,20万エージェントのシミュレーションでアプローチを実証した。
論文参考訳（メタデータ） (2024-10-22T22:49:04Z)
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは進化的アルゴリズムによって専門家エージェントをマルチエージェントシステムに自動的に拡張する汎用的な手法である。 EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-06-20T11:49:23Z)
Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文参考訳（メタデータ） (2024-01-09T15:44:44Z)
Quantifying Agent Interaction in Multi-agent Reinforcement Learning for Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文参考訳（メタデータ） (2023-10-11T06:09:26Z)
Decentralized Adaptive Formation via Consensus-Oriented Multi-Agent Communication [9.216867817261493]
本稿では,Consensus-based Decentralized Adaptive Formation (Cons-DecAF) フレームワークを提案する。具体的には、コンセンサス指向のマルチエージェント通信(ConsMAC)という新しいマルチエージェント強化学習手法を開発する。エージェントの特定の位置を事前に割り当てる代わりに、Hausdorff 距離による変位に基づく生成を用いて、生成効率を著しく向上する。
論文参考訳（メタデータ） (2023-07-23T10:41:17Z)
Supplementing Gradient-Based Reinforcement Learning with Simple Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文参考訳（メタデータ） (2023-05-10T09:46:53Z)
RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。 RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2022-10-18T07:32:43Z)
Quantifying environment and population diversity in multi-agent reinforcement learning [7.548322030720646]
一般化は多エージェント強化学習の大きな課題である。本稿では,マルチエージェント領域における一般化と多様性の関係を定量的に検討する。共同演奏者の変動が与える影響をよりよく理解するために,実験では,行動の多様性の環境によらない新しい尺度を導入する。
論文参考訳（メタデータ） (2021-02-16T18:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。