論文の概要: Towards Global Optimality in Cooperative MARL with Sequential
Transformation
- arxiv url: http://arxiv.org/abs/2207.11143v1
- Date: Tue, 12 Jul 2022 06:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-31 14:38:44.857655
- Title: Towards Global Optimality in Cooperative MARL with Sequential
Transformation
- Title(参考訳): 逐次変換を伴う協調MARLのグローバル最適性に向けて
- Authors: Jianing Ye, Chenghao Li, Jianhao Wang, Chongjie Zhang
- Abstract要約: 多エージェント強化学習(MARL)における政策学習は,エージェント数に関して,共同行動空間の指数的成長により困難である。
協調型MARLにおける既存のCTDEアルゴリズムは、単純な行列ゲームでも最適性を達成できない。
本稿では,マルチエージェントのMDPを,シーケンシャルな構造を持つ特別な「単一エージェント」MDPとして再構成する,新しい変換フレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.612749327414335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy learning in multi-agent reinforcement learning (MARL) is challenging
due to the exponential growth of joint state-action space with respect to the
number of agents. To achieve higher scalability, the paradigm of centralized
training with decentralized execution (CTDE) is broadly adopted with factorized
structure in MARL. However, we observe that existing CTDE algorithms in
cooperative MARL cannot achieve optimality even in simple matrix games. To
understand this phenomenon, we introduce a framework of Generalized Multi-Agent
Actor-Critic with Policy Factorization (GPF-MAC), which characterizes the
learning of factorized joint policies, i.e., each agent's policy only depends
on its own observation-action history. We show that most popular CTDE MARL
algorithms are special instances of GPF-MAC and may be stuck in a suboptimal
joint policy. To address this issue, we present a novel transformation
framework that reformulates a multi-agent MDP as a special "single-agent" MDP
with a sequential structure and can allow employing off-the-shelf single-agent
reinforcement learning (SARL) algorithms to efficiently learn corresponding
multi-agent tasks. This transformation retains the optimality guarantee of SARL
algorithms into cooperative MARL. To instantiate this transformation framework,
we propose a Transformed PPO, called T-PPO, which can theoretically perform
optimal policy learning in the finite multi-agent MDPs and shows significant
outperformance on a large set of cooperative multi-agent tasks.
- Abstract(参考訳): 多エージェント強化学習(MARL)における政策学習は,エージェント数に関して,共同行動空間の指数的成長により困難である。
スケーラビリティを高めるために、分散実行(CTDE)による集中トレーニングのパラダイムが、MARLの分解構造とともに広く採用されている。
しかし、協調的なMARLにおける既存のCTDEアルゴリズムは、単純な行列ゲームでも最適性を達成できない。
この現象を理解するために, 一般化されたマルチエージェント・アクタ-クリティックと政策因子化(gpf-mac)の枠組みを導入し, それぞれのエージェントの政策は, 自己の観察・行動履歴にのみ依存する, 因子化された共同政策の学習を特徴付ける。
GPF-MACの特殊例として,CTDE MARLアルゴリズムが広く用いられている。
本稿では,マルチエージェントmdpを逐次構造を持つ特別な"シングルエージェント"mdpとして再構成し,既成のシングルエージェント強化学習(sarl)アルゴリズムを用いて対応するマルチエージェントタスクを効率的に学習できる,新たなトランスフォーメーションフレームワークを提案する。
この変換は、協調的なMARLへのSARLアルゴリズムの最適性を保証する。
この変換フレームワークをインスタンス化するために、T-PPOと呼ばれる変換されたPPOを提案する。これは、有限個のマルチエージェント MDP において理論的に最適なポリシー学習を行い、多数の協調マルチエージェントタスクに対して大きな性能を示す。
関連論文リスト
- Approximate Linear Programming for Decentralized Policy Iteration in Cooperative Multi-agent Markov Decision Processes [5.842054972839244]
我々は,mエージェントを含む協調的マルチエージェントマルコフ決定過程について考察する。
マルチエージェント設定のポリシーイテレーションプロセスでは、アクションの数はエージェントの数とともに指数関数的に増加する。
本稿では,関数近似を用いた近似線形計画法を用いて,近似分散型ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T14:14:13Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文 参考訳(メタデータ) (2022-11-06T05:38:23Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。