論文の概要: Coordinated Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2111.04051v1
- Date: Sun, 7 Nov 2021 11:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 07:37:30.553398
- Title: Coordinated Proximal Policy Optimization
- Title(参考訳): Coordinated Proximal Policy Optimization
- Authors: Zifan Wu, Chao Yu, Deheng Ye, Junge Zhang, Haiyin Piao, Hankz Hankui
Zhuo
- Abstract要約: Coordinated Proximal Policy Optimization (CoPPO) は、オリジナルの Proximal Policy Optimization (PPO) をマルチエージェント設定に拡張するアルゴリズムである。
我々は,理論的な共同目的を最適化する際の政策改善の単調性を証明する。
そこで我々は,CoPPOにおけるそのような目的がエージェント間の動的信用割り当てを達成し,エージェントポリシーの同時更新時の高分散問題を軽減することができると解釈した。
- 参考スコア(独自算出の注目度): 28.780862892562308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Coordinated Proximal Policy Optimization (CoPPO), an algorithm
that extends the original Proximal Policy Optimization (PPO) to the multi-agent
setting. The key idea lies in the coordinated adaptation of step size during
the policy update process among multiple agents. We prove the monotonicity of
policy improvement when optimizing a theoretically-grounded joint objective,
and derive a simplified optimization objective based on a set of
approximations. We then interpret that such an objective in CoPPO can achieve
dynamic credit assignment among agents, thereby alleviating the high variance
issue during the concurrent update of agent policies. Finally, we demonstrate
that CoPPO outperforms several strong baselines and is competitive with the
latest multi-agent PPO method (i.e. MAPPO) under typical multi-agent settings,
including cooperative matrix games and the StarCraft II micromanagement tasks.
- Abstract(参考訳): 本稿では,元来の近位政策最適化 (ppo) をマルチエージェント設定に拡張するアルゴリズムであるcoppo(co coordinated proximal policy optimization)を提案する。
鍵となるアイデアは、複数のエージェント間のポリシー更新プロセスにおけるステップサイズの調整された適応にある。
理論的に接地した共同目的を最適化する際の政策改善の単調性を証明し、近似集合に基づく単純化された最適化目標を導出する。
そこで我々は,CoPPOにおけるそのような目的がエージェント間の動的信用割り当てを達成し,エージェントポリシーの同時更新時の高分散問題を軽減することができると解釈した。
最後に、CoPPOはいくつかの強力なベースラインより優れており、協調行列ゲームやStarCraft IIマイクロマネジメントタスクを含む典型的なマルチエージェント設定下で、最新のマルチエージェントPPO手法(MAPPO)と競合することを示す。
関連論文リスト
- Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Model-Based Decentralized Policy Optimization [27.745312627153012]
分散されたポリシー最適化は、協調的なマルチエージェントタスクでよく使われてきた。
モデルベース分散ポリシー最適化(MDPO)を提案する。
MDPOの政策最適化はモデルフリーの分散政策最適化よりも安定である。
論文 参考訳(メタデータ) (2023-02-16T08:15:18Z) - Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文 参考訳(メタデータ) (2022-11-06T05:38:23Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。