論文の概要: Order Matters: Agent-by-agent Policy Optimization
- arxiv url: http://arxiv.org/abs/2302.06205v1
- Date: Mon, 13 Feb 2023 09:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:05:33.088462
- Title: Order Matters: Agent-by-agent Policy Optimization
- Title(参考訳): 注文事項:エージェント・バイ・エージェント政策最適化
- Authors: Xihuai Wang, Zheng Tian, Ziyu Wan, Ying Wen, Jun Wang, Weinan Zhang
- Abstract要約: ポリシーをエージェント・バイ・エージェントに更新するシーケンシャルなスキームは、別の視点を提供し、高いパフォーマンスを示す。
サンプル効率を向上させるために,textbfAgent-by-textbfagent textbfPolicy textbfOptimization (A2PO)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 41.017093493743765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multi-agent trust region algorithms have achieved great success
empirically in solving coordination tasks, most of them, however, suffer from a
non-stationarity problem since agents update their policies simultaneously. In
contrast, a sequential scheme that updates policies agent-by-agent provides
another perspective and shows strong performance. However, sample inefficiency
and lack of monotonic improvement guarantees for each agent are still the two
significant challenges for the sequential scheme. In this paper, we propose the
\textbf{A}gent-by-\textbf{a}gent \textbf{P}olicy \textbf{O}ptimization (A2PO)
algorithm to improve the sample efficiency and retain the guarantees of
monotonic improvement for each agent during training. We justify the tightness
of the monotonic improvement bound compared with other trust region algorithms.
From the perspective of sequentially updating agents, we further consider the
effect of agent updating order and extend the theory of non-stationarity into
the sequential update scheme. To evaluate A2PO, we conduct a comprehensive
empirical study on four benchmarks: StarCraftII, Multi-agent MuJoCo,
Multi-agent Particle Environment, and Google Research Football full game
scenarios. A2PO consistently outperforms strong baselines.
- Abstract(参考訳): マルチエージェント信頼領域のアルゴリズムは協調作業の解決において経験的に大きな成功を収めてきたが、エージェントが同時にポリシーを更新したため、そのほとんどが非定常的な問題に悩まされている。
対照的に、ポリシーをエージェントバイエージェントに更新するシーケンシャルなスキームは、別の視点を提供し、高いパフォーマンスを示している。
しかしながら、各エージェントに対するサンプル非効率性と単調改善保証の欠如は、シーケンシャルスキームにおける2つの重要な課題である。
本稿では,サンプル効率を向上し,トレーニング中の各エージェントに対する単調改善の保証を維持するために,<textbf{A}gent-by-\textbf{a}gent \textbf{P}olicy \textbf{O}ptimization (A2PO)アルゴリズムを提案する。
我々は他の信頼領域アルゴリズムと比較して単調改善の厳密さを正当化する。
エージェントの逐次更新の観点からは,エージェント更新順序の影響をさらに考慮し,非定常性の理論を逐次更新方式に拡張する。
A2POを評価するために,StarCraftII,Multi-agent MuJoCo,Multi-agent Particle Environment,Google Research Footballの全試合シナリオの4つのベンチマークを総合的に検討した。
A2POは強いベースラインを一貫して上回る。
関連論文リスト
- Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Coordinated Proximal Policy Optimization [28.780862892562308]
Coordinated Proximal Policy Optimization (CoPPO) は、オリジナルの Proximal Policy Optimization (PPO) をマルチエージェント設定に拡張するアルゴリズムである。
我々は,理論的な共同目的を最適化する際の政策改善の単調性を証明する。
そこで我々は,CoPPOにおけるそのような目的がエージェント間の動的信用割り当てを達成し,エージェントポリシーの同時更新時の高分散問題を軽減することができると解釈した。
論文 参考訳(メタデータ) (2021-11-07T11:14:19Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning [0.0]
各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
論文 参考訳(メタデータ) (2020-05-04T16:34:24Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。