論文の概要: Semi-Centralised Multi-Agent Reinforcement Learning with Policy-Embedded
Training
- arxiv url: http://arxiv.org/abs/2209.01054v1
- Date: Fri, 2 Sep 2022 13:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 13:03:32.734650
- Title: Semi-Centralised Multi-Agent Reinforcement Learning with Policy-Embedded
Training
- Title(参考訳): ポリシー組込みトレーニングによる半集中型マルチエージェント強化学習
- Authors: Taher Jafferjee, Juliusz Ziomek, Tianpei Yang, Zipeng Dai, Jianhong
Wang, Matthew Taylor, Kun Shao, Jun Wang, David Mguni
- Abstract要約: ポリシー組込み強化学習アルゴリズム(PERLA)はアクター・クライト・MARLアルゴリズムの強化ツールである。
我々の理論はPERLAが推定値のばらつきを劇的に減らすことを証明している。
ベンチマーク環境でのPERLAの優れた経験的性能と効率的なスケーリングを実証する。
- 参考スコア(独自算出の注目度): 12.94372063457462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralised training (CT) is the basis for many popular multi-agent
reinforcement learning (MARL) methods because it allows agents to quickly learn
high-performing policies. However, CT relies on agents learning from one-off
observations of other agents' actions at a given state. Because MARL agents
explore and update their policies during training, these observations often
provide poor predictions about other agents' behaviour and the expected return
for a given action. CT methods therefore suffer from high variance and
error-prone estimates, harming learning. CT methods also suffer from explosive
growth in complexity due to the reliance on global observations, unless strong
factorisation restrictions are imposed (e.g., monotonic reward functions for
QMIX). We address these challenges with a new semi-centralised MARL framework
that performs policy-embedded training and decentralised execution. Our method,
policy embedded reinforcement learning algorithm (PERLA), is an enhancement
tool for Actor-Critic MARL algorithms that leverages a novel parameter sharing
protocol and policy embedding method to maintain estimates that account for
other agents' behaviour. Our theory proves PERLA dramatically reduces the
variance in value estimates. Unlike various CT methods, PERLA, which seamlessly
adopts MARL algorithms, scales easily with the number of agents without the
need for restrictive factorisation assumptions. We demonstrate PERLA's superior
empirical performance and efficient scaling in benchmark environments including
StarCraft Micromanagement II and Multi-agent Mujoco
- Abstract(参考訳): 中央訓練(CT)は、エージェントが高速に高性能なポリシーを学習できるようにするため、多くの一般的なマルチエージェント強化学習(MARL)手法の基礎となっている。
しかし、CTは特定の状態における他のエージェントの行動の観察から学ぶエージェントに依存している。
MARLエージェントはトレーニング中にポリシーを探索し、更新するため、これらの観察は、しばしば他のエージェントの振る舞いや、与えられたアクションに対する期待されたリターンについての予測が不十分である。
したがって、CT法は、高いばらつきとエラーを起こしやすい推定に悩まされ、学習を害する。
CT法は、強い分解制限(例えばQMIXの単調報酬関数)を課さない限り、地球規模の観測に依存するため、複雑さが爆発的に増大する。
我々は、ポリシー組込みトレーニングと分散実行を実行する、新しい半集中型marlフレームワークでこれらの課題に対処する。
提案手法であるポリシー埋め込み強化学習アルゴリズムは,新しいパラメータ共有プロトコルとポリシー埋め込み手法を利用して,他のエージェントの行動を考慮した推定値を維持する,アクタ・クリティカル・MARLアルゴリズムの拡張ツールである。
我々の理論はPERLAが推定値のばらつきを劇的に減らすことを証明している。
様々なCT法とは異なり、MARLアルゴリズムをシームレスに採用するPERLAは、制限的分解仮定を必要とせずに、エージェント数で容易にスケールできる。
StarCraft Micromanagement II や Multi-agent Mujoco などベンチマーク環境におけるPERLA の優れた経験的性能と効率的なスケーリングを実証する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Evaluating Generalization and Transfer Capacity of Multi-Agent
Reinforcement Learning Across Variable Number of Agents [0.0]
マルチエージェント強化学習(MARL)問題は、タスクを解決するためにエージェント間の協調を必要とすることが多い。
中央集権化と分散化は、MARLにおける協力のための2つのアプローチである。
分散実行パラダイムを用いた集中型トレーニングを採用し, エージェント数に応じて, 学習モデルの一般化と伝達能力について検討する。
論文 参考訳(メタデータ) (2021-11-28T15:29:46Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。