Fugu-MT 論文翻訳(概要): Semi-Centralised Multi-Agent Reinforcement Learning with Policy-Embedded Training

論文の概要: Semi-Centralised Multi-Agent Reinforcement Learning with Policy-Embedded Training

arxiv url: http://arxiv.org/abs/2209.01054v1
Date: Fri, 2 Sep 2022 13:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-05 13:03:32.734650
Title: Semi-Centralised Multi-Agent Reinforcement Learning with Policy-Embedded Training
Title（参考訳）: ポリシー組込みトレーニングによる半集中型マルチエージェント強化学習
Authors: Taher Jafferjee, Juliusz Ziomek, Tianpei Yang, Zipeng Dai, Jianhong Wang, Matthew Taylor, Kun Shao, Jun Wang, David Mguni
Abstract要約: ポリシー組込み強化学習アルゴリズム(PERLA)はアクター・クライト・MARLアルゴリズムの強化ツールである。我々の理論はPERLAが推定値のばらつきを劇的に減らすことを証明している。ベンチマーク環境でのPERLAの優れた経験的性能と効率的なスケーリングを実証する。
参考スコア（独自算出の注目度）: 12.94372063457462
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Centralised training (CT) is the basis for many popular multi-agent reinforcement learning (MARL) methods because it allows agents to quickly learn high-performing policies. However, CT relies on agents learning from one-off observations of other agents' actions at a given state. Because MARL agents explore and update their policies during training, these observations often provide poor predictions about other agents' behaviour and the expected return for a given action. CT methods therefore suffer from high variance and error-prone estimates, harming learning. CT methods also suffer from explosive growth in complexity due to the reliance on global observations, unless strong factorisation restrictions are imposed (e.g., monotonic reward functions for QMIX). We address these challenges with a new semi-centralised MARL framework that performs policy-embedded training and decentralised execution. Our method, policy embedded reinforcement learning algorithm (PERLA), is an enhancement tool for Actor-Critic MARL algorithms that leverages a novel parameter sharing protocol and policy embedding method to maintain estimates that account for other agents' behaviour. Our theory proves PERLA dramatically reduces the variance in value estimates. Unlike various CT methods, PERLA, which seamlessly adopts MARL algorithms, scales easily with the number of agents without the need for restrictive factorisation assumptions. We demonstrate PERLA's superior empirical performance and efficient scaling in benchmark environments including StarCraft Micromanagement II and Multi-agent Mujoco
Abstract（参考訳）: 中央訓練(CT)は、エージェントが高速に高性能なポリシーを学習できるようにするため、多くの一般的なマルチエージェント強化学習(MARL)手法の基礎となっている。しかし、CTは特定の状態における他のエージェントの行動の観察から学ぶエージェントに依存している。 MARLエージェントはトレーニング中にポリシーを探索し、更新するため、これらの観察は、しばしば他のエージェントの振る舞いや、与えられたアクションに対する期待されたリターンについての予測が不十分である。したがって、CT法は、高いばらつきとエラーを起こしやすい推定に悩まされ、学習を害する。 CT法は、強い分解制限(例えばQMIXの単調報酬関数)を課さない限り、地球規模の観測に依存するため、複雑さが爆発的に増大する。我々は、ポリシー組込みトレーニングと分散実行を実行する、新しい半集中型marlフレームワークでこれらの課題に対処する。提案手法であるポリシー埋め込み強化学習アルゴリズムは,新しいパラメータ共有プロトコルとポリシー埋め込み手法を利用して,他のエージェントの行動を考慮した推定値を維持する,アクタ・クリティカル・MARLアルゴリズムの拡張ツールである。我々の理論はPERLAが推定値のばらつきを劇的に減らすことを証明している。様々なCT法とは異なり、MARLアルゴリズムをシームレスに採用するPERLAは、制限的分解仮定を必要とせずに、エージェント数で容易にスケールできる。 StarCraft Micromanagement II や Multi-agent Mujoco などベンチマーク環境におけるPERLA の優れた経験的性能と効率的なスケーリングを実証する。

関連論文リスト

From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文参考訳（メタデータ） (2022-02-09T08:38:50Z)
Monotonic Improvement Guarantees under Non-stationarity for Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文参考訳（メタデータ） (2022-01-31T20:39:48Z)
Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。 PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文参考訳（メタデータ） (2021-12-23T17:48:04Z)
Evaluating Generalization and Transfer Capacity of Multi-Agent Reinforcement Learning Across Variable Number of Agents [0.0]
マルチエージェント強化学習(MARL)問題は、タスクを解決するためにエージェント間の協調を必要とすることが多い。中央集権化と分散化は、MARLにおける協力のための2つのアプローチである。分散実行パラダイムを用いた集中型トレーニングを採用し, エージェント数に応じて, 学習モデルの一般化と伝達能力について検討する。
論文参考訳（メタデータ） (2021-11-28T15:29:46Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。 ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文参考訳（メタデータ） (2021-10-16T19:03:34Z)
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文参考訳（メタデータ） (2021-09-22T13:49:35Z)
Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文参考訳（メタデータ） (2021-07-14T17:22:14Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。 IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文参考訳（メタデータ） (2020-11-18T20:29:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。