論文の概要: Semi-Centralised Multi-Agent Reinforcement Learning with Policy-Embedded
Training
- arxiv url: http://arxiv.org/abs/2209.01054v1
- Date: Fri, 2 Sep 2022 13:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 13:03:32.734650
- Title: Semi-Centralised Multi-Agent Reinforcement Learning with Policy-Embedded
Training
- Title(参考訳): ポリシー組込みトレーニングによる半集中型マルチエージェント強化学習
- Authors: Taher Jafferjee, Juliusz Ziomek, Tianpei Yang, Zipeng Dai, Jianhong
Wang, Matthew Taylor, Kun Shao, Jun Wang, David Mguni
- Abstract要約: ポリシー組込み強化学習アルゴリズム(PERLA)はアクター・クライト・MARLアルゴリズムの強化ツールである。
我々の理論はPERLAが推定値のばらつきを劇的に減らすことを証明している。
ベンチマーク環境でのPERLAの優れた経験的性能と効率的なスケーリングを実証する。
- 参考スコア(独自算出の注目度): 12.94372063457462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralised training (CT) is the basis for many popular multi-agent
reinforcement learning (MARL) methods because it allows agents to quickly learn
high-performing policies. However, CT relies on agents learning from one-off
observations of other agents' actions at a given state. Because MARL agents
explore and update their policies during training, these observations often
provide poor predictions about other agents' behaviour and the expected return
for a given action. CT methods therefore suffer from high variance and
error-prone estimates, harming learning. CT methods also suffer from explosive
growth in complexity due to the reliance on global observations, unless strong
factorisation restrictions are imposed (e.g., monotonic reward functions for
QMIX). We address these challenges with a new semi-centralised MARL framework
that performs policy-embedded training and decentralised execution. Our method,
policy embedded reinforcement learning algorithm (PERLA), is an enhancement
tool for Actor-Critic MARL algorithms that leverages a novel parameter sharing
protocol and policy embedding method to maintain estimates that account for
other agents' behaviour. Our theory proves PERLA dramatically reduces the
variance in value estimates. Unlike various CT methods, PERLA, which seamlessly
adopts MARL algorithms, scales easily with the number of agents without the
need for restrictive factorisation assumptions. We demonstrate PERLA's superior
empirical performance and efficient scaling in benchmark environments including
StarCraft Micromanagement II and Multi-agent Mujoco
- Abstract(参考訳): 中央訓練(CT)は、エージェントが高速に高性能なポリシーを学習できるようにするため、多くの一般的なマルチエージェント強化学習(MARL)手法の基礎となっている。
しかし、CTは特定の状態における他のエージェントの行動の観察から学ぶエージェントに依存している。
MARLエージェントはトレーニング中にポリシーを探索し、更新するため、これらの観察は、しばしば他のエージェントの振る舞いや、与えられたアクションに対する期待されたリターンについての予測が不十分である。
したがって、CT法は、高いばらつきとエラーを起こしやすい推定に悩まされ、学習を害する。
CT法は、強い分解制限(例えばQMIXの単調報酬関数)を課さない限り、地球規模の観測に依存するため、複雑さが爆発的に増大する。
我々は、ポリシー組込みトレーニングと分散実行を実行する、新しい半集中型marlフレームワークでこれらの課題に対処する。
提案手法であるポリシー埋め込み強化学習アルゴリズムは,新しいパラメータ共有プロトコルとポリシー埋め込み手法を利用して,他のエージェントの行動を考慮した推定値を維持する,アクタ・クリティカル・MARLアルゴリズムの拡張ツールである。
我々の理論はPERLAが推定値のばらつきを劇的に減らすことを証明している。
様々なCT法とは異なり、MARLアルゴリズムをシームレスに採用するPERLAは、制限的分解仮定を必要とせずに、エージェント数で容易にスケールできる。
StarCraft Micromanagement II や Multi-agent Mujoco などベンチマーク環境におけるPERLA の優れた経験的性能と効率的なスケーリングを実証する。
関連論文リスト
- RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Scalable Reinforcement Learning Policies for Multi-Agent Control [29.42370205354368]
目標追跡のためのスケーラブルな制御ポリシーを学習するためのマルチエージェント強化学習(MARL)手法を開発した。
最大1000人の追従者による1000の目標追跡タスクの結果を示す。
論文 参考訳(メタデータ) (2020-11-16T16:11:12Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。