論文の概要: Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO
- arxiv url: http://arxiv.org/abs/2202.00082v1
- Date: Mon, 31 Jan 2022 20:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 05:53:59.067848
- Title: Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO
- Title(参考訳): 分散PPOのための非定常条件下での単調改善保証
- Authors: Mingfei Sun, Sam Devlin, Katja Hofmann, Shimon Whiteson
- Abstract要約: 我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
- 参考スコア(独自算出の注目度): 66.5384483339413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new monotonic improvement guarantee for optimizing decentralized
policies in cooperative Multi-Agent Reinforcement Learning (MARL), which holds
even when the transition dynamics are non-stationary. This new analysis
provides a theoretical understanding of the strong performance of two recent
actor-critic methods for MARL, i.e., Independent Proximal Policy Optimization
(IPPO) and Multi-Agent PPO (MAPPO), which both rely on independent ratios,
i.e., computing probability ratios separately for each agent's policy. We show
that, despite the non-stationarity that independent ratios cause, a monotonic
improvement guarantee still arises as a result of enforcing the trust region
constraint over all decentralized policies. We also show this trust region
constraint can be effectively enforced in a principled way by bounding
independent ratios based on the number of agents in training, providing a
theoretical foundation for proximal ratio clipping. Moreover, we show that the
surrogate objectives optimized in IPPO and MAPPO are essentially equivalent
when their critics converge to a fixed point. Finally, our empirical results
support the hypothesis that the strong performance of IPPO and MAPPO is a
direct result of enforcing such a trust region constraint via clipping in
centralized training, and the good values of the hyperparameters for this
enforcement are highly sensitive to the number of agents, as predicted by our
theoretical analysis.
- Abstract(参考訳): 我々は,移動力学が定常的でない場合でも維持される協調型マルチエージェント強化学習(MARL)において,分散政策を最適化するための新しい単調改善保証を提案する。
この新たな分析は、MARL(Independent Proximal Policy Optimization、IPPO)とMAPPO(Multi-Agent PPO、MAPPO)の2つの最近のアクター批判手法の強い性能に関する理論的理解を提供する。
独立比が引き起こす非定常性にもかかわらず、信頼領域がすべての分散政策に制約を課す結果、単調な改善保証が依然として発生していることを示す。
また,この信頼領域の制約は,訓練中のエージェント数に基づいて独立比を制限し,近位比クリッピングの理論的基礎を提供することによって,原則的に効果的に実施できることを示す。
さらに,IPPOとMAPPOに最適化されたサロゲート目的は,批評家が一定点に収束した場合に本質的に等価であることを示す。
最後に,我々は,ippoとmappoの強力な性能は,集中型トレーニングにおけるクリッピングによる信頼領域制約の実施による直接的な結果であり,この実施のためのハイパーパラメータのよい値は,理論解析によって予測されたエージェント数に非常に敏感である,という仮説を実証的に支持する。
関連論文リスト
- Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文 参考訳(メタデータ) (2022-11-06T05:38:23Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。