論文の概要: Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction
- arxiv url: http://arxiv.org/abs/2209.01054v2
- Date: Thu, 22 Jun 2023 14:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:59:56.366441
- Title: Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction
- Title(参考訳): estimator variance reductionを用いたマルチエージェント強化学習
- Authors: Taher Jafferjee, Juliusz Ziomek, Tianpei Yang, Zipeng Dai, Jianhong
Wang, Matthew Taylor, Kun Shao, Jun Wang, David Mguni
- Abstract要約: 分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
- 参考スコア(独自算出の注目度): 12.94372063457462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralised training with decentralised execution (CT-DE) serves as the
foundation of many leading multi-agent reinforcement learning (MARL)
algorithms. Despite its popularity, it suffers from a critical drawback due to
its reliance on learning from a single sample of the joint-action at a given
state. As agents explore and update their policies during training, these
single samples may poorly represent the actual joint-policy of the system of
agents leading to high variance gradient estimates that hinder learning. To
address this problem, we propose an enhancement tool that accommodates any
actor-critic MARL method. Our framework, Performance Enhancing Reinforcement
Learning Apparatus (PERLA), introduces a sampling technique of the agents'
joint-policy into the critics while the agents train. This leads to TD updates
that closely approximate the true expected value under the current joint-policy
rather than estimates from a single sample of the joint-action at a given
state. This produces low variance and precise estimates of expected returns,
minimising the variance in the critic estimators which typically hinders
learning. Moreover, as we demonstrate, by eliminating much of the critic
variance from the single sampling of the joint policy, PERLA enables CT-DE
methods to scale more efficiently with the number of agents. Theoretically, we
prove that PERLA reduces variance in value estimates similar to that of
decentralised training while maintaining the benefits of centralised training.
Empirically, we demonstrate PERLA's superior performance and ability to reduce
estimator variance in a range of benchmarks including Multi-agent Mujoco, and
StarCraft II Multi-agent Challenge.
- Abstract(参考訳): 分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
その人気にもかかわらず、特定の状態における共同行動の単一サンプルからの学習に依存しているため、重大な欠点に悩まされている。
エージェントはトレーニング中にポリシーを探索し、更新するので、これらの単一のサンプルは、学習を妨げる高分散勾配推定につながるエージェントのシステムの実際の共同政治を表現できない可能性がある。
この問題に対処するため,アクター批判型MARL手法を適用可能な拡張ツールを提案する。
提案手法であるパフォーマンス強化強化学習装置(perla)は,エージェントの訓練中に,エージェントの共同政治のサンプリング手法を批評家に導入する。
このことは、与えられた状態における共同行動の単一サンプルからの推定よりも、現在の共同政治の下での真の期待値を正確に近似するTD更新につながる。
これにより、予測されるリターンの低いばらつきと正確な見積が行われ、通常は学習を妨げる批評家の推定値のばらつきを最小化する。
さらに,共同政策の単一サンプリングから批判のばらつきの大部分を排除することによって,PERLAはCT-DE法をエージェント数に応じて効率よくスケールできるようにする。
理論的には、PERLAは集中トレーニングの利点を維持しながら、分散トレーニングと同様の価値見積のばらつきを低減する。
PERLAの優れた性能と,マルチエージェントMujocoやStarCraft II Multi-agent Challengeなど,さまざまなベンチマークにおいて推定値のばらつきを低減する能力を示す。
関連論文リスト
- Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Evaluating Generalization and Transfer Capacity of Multi-Agent
Reinforcement Learning Across Variable Number of Agents [0.0]
マルチエージェント強化学習(MARL)問題は、タスクを解決するためにエージェント間の協調を必要とすることが多い。
中央集権化と分散化は、MARLにおける協力のための2つのアプローチである。
分散実行パラダイムを用いた集中型トレーニングを採用し, エージェント数に応じて, 学習モデルの一般化と伝達能力について検討する。
論文 参考訳(メタデータ) (2021-11-28T15:29:46Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。