論文の概要: A Game-Theoretic Approach to Multi-Agent Trust Region Optimization
- arxiv url: http://arxiv.org/abs/2106.06828v1
- Date: Sat, 12 Jun 2021 18:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 15:58:09.038016
- Title: A Game-Theoretic Approach to Multi-Agent Trust Region Optimization
- Title(参考訳): マルチエージェント信頼領域最適化のためのゲーム理論的アプローチ
- Authors: Ying Wen, Hui Chen, Yaodong Yang, Zheng Tian, Minne Li, Xu Chen, Jun
Wang
- Abstract要約: マルチエージェント学習のためのマルチエージェント信頼領域学習法(MATRL)を提案する。
MATRLはメタゲームレベルでのナッシュ平衡の解概念によって導かれる安定な改善方向を求める。
以上の結果から,MATRLは強いマルチエージェント強化学習ベースラインよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 38.86953347459777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trust region methods are widely applied in single-agent reinforcement
learning problems due to their monotonic performance-improvement guarantee at
every iteration. Nonetheless, when applied in multi-agent settings, the
guarantee of trust region methods no longer holds because an agent's payoff is
also affected by other agents' adaptive behaviors. To tackle this problem, we
conduct a game-theoretical analysis in the policy space, and propose a
multi-agent trust region learning method (MATRL), which enables trust region
optimization for multi-agent learning. Specifically, MATRL finds a stable
improvement direction that is guided by the solution concept of Nash
equilibrium at the meta-game level. We derive the monotonic improvement
guarantee in multi-agent settings and empirically show the local convergence of
MATRL to stable fixed points in the two-player rotational differential game. To
test our method, we evaluate MATRL in both discrete and continuous multiplayer
general-sum games including checker and switch grid worlds, multi-agent MuJoCo,
and Atari games. Results suggest that MATRL significantly outperforms strong
multi-agent reinforcement learning baselines.
- Abstract(参考訳): 信頼領域法は, 単調な性能向上保証のため, 単一エージェント強化学習問題に広く適用されている。
にもかかわらず、マルチエージェント設定に適用した場合、エージェントの支払いが他のエージェントの適応行動に影響されるため、信頼領域メソッドの保証はもはや保たない。
この問題に対処するため、政策空間におけるゲーム理論解析を行い、マルチエージェント学習のための信頼領域最適化を可能にするマルチエージェント信頼領域学習法(MATRL)を提案する。
具体的には、MATRLは、メタゲームレベルでのナッシュ平衡という解概念によって導かれる安定した改善方向を見つける。
本研究では,マルチエージェント設定における単調改善保証を導出し,二者間回転微分ゲームにおける安定不動点へのmatrlの局所収束を実証的に示す。
本手法を試すために,チェッカーやスイッチグリッドワールド,マルチエージェントのMuJoCo,アタリゲームなど,個別かつ連続的なマルチプレイヤー汎用ゲームにおいてMATRLを評価する。
その結果,MATRLは強いマルチエージェント強化学習ベースラインよりも優れていた。
関連論文リスト
- Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Order Matters: Agent-by-agent Policy Optimization [41.017093493743765]
ポリシーをエージェント・バイ・エージェントに更新するシーケンシャルなスキームは、別の視点を提供し、高いパフォーマンスを示す。
サンプル効率を向上させるために,textbfAgent-by-textbfagent textbfPolicy textbfOptimization (A2PO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:24:34Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。