論文の概要: Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework
- arxiv url: http://arxiv.org/abs/2207.11143v3
- Date: Thu, 23 Mar 2023 09:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 18:38:07.715811
- Title: Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework
- Title(参考訳): 変換・蒸留フレームワークを用いたMARLのグローバル最適化に向けて
- Authors: Jianing Ye, Chenghao Li, Jianhao Wang, Chongjie Zhang
- Abstract要約: 分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
- 参考スコア(独自算出の注目度): 26.612749327414335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralized execution is one core demand in cooperative multi-agent
reinforcement learning (MARL). Recently, most popular MARL algorithms have
adopted decentralized policies to enable decentralized execution and use
gradient descent as their optimizer. However, there is hardly any theoretical
analysis of these algorithms taking the optimization method into consideration,
and we find that various popular MARL algorithms with decentralized policies
are suboptimal in toy tasks when gradient descent is chosen as their
optimization method. In this paper, we theoretically analyze two common classes
of algorithms with decentralized policies -- multi-agent policy gradient
methods and value-decomposition methods to prove their suboptimality when
gradient descent is used. In addition, we propose the Transformation And
Distillation (TAD) framework, which reformulates a multi-agent MDP as a special
single-agent MDP with a sequential structure and enables decentralized
execution by distilling the learned policy on the derived ``single-agent" MDP.
This approach uses a two-stage learning paradigm to address the optimization
problem in cooperative MARL, maintaining its performance guarantee.
Empirically, we implement TAD-PPO based on PPO, which can theoretically perform
optimal policy learning in the finite multi-agent MDPs and shows significant
outperformance on a large set of cooperative multi-agent tasks.
- Abstract(参考訳): 分散実行は、協調マルチエージェント強化学習(MARL)における中核的な要求である。
近年、最も人気のあるMARLアルゴリズムは、分散実行を可能にするために分散ポリシーを採用し、勾配降下を最適化に利用している。
しかし、最適化法を考慮に入れるアルゴリズムの理論的解析はほとんどなく、勾配降下を最適化法として選択した場合、分散ポリシーを持つ様々な人気marlアルゴリズムがおもちゃタスクにおいて最適でないことが判明した。
本稿では,多エージェントポリシー勾配法と値分解法の2つの共通クラスを理論的に解析し,勾配勾配勾配を用いた場合の準最適性を証明する。
さらに,マルチエージェントMDPを特別な単一エージェントMDPとして逐次的な構造で再構成し,得られた「単一エージェント」MDPに対して学習ポリシーを蒸留することにより分散実行を可能にする変換と蒸留(TAD)フレームワークを提案する。
このアプローチは、2段階学習パラダイムを用いて協調MARLの最適化問題に対処し、性能保証を維持する。
PPOをベースとしたTAD-PPOを実装し、理論上は有限個のマルチエージェントMDPで最適ポリシー学習を行い、多数の協調マルチエージェントタスクにおいて顕著なパフォーマンスを示す。
関連論文リスト
- Approximate Linear Programming for Decentralized Policy Iteration in Cooperative Multi-agent Markov Decision Processes [5.842054972839244]
我々は,mエージェントを含む協調的マルチエージェントマルコフ決定過程について考察する。
マルチエージェント設定のポリシーイテレーションプロセスでは、アクションの数はエージェントの数とともに指数関数的に増加する。
本稿では,関数近似を用いた近似線形計画法を用いて,近似分散型ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T14:14:13Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Decentralized Policy Optimization [21.59254848913971]
単調な改善と収束を保証する分散型アクター批判アルゴリズムであるテキスト分散ポリシー最適化(DPO)を提案する。
実験的に、DPOとIPPOを協調的な多エージェントタスクで比較し、離散的かつ連続的な行動空間、完全かつ部分的に観察可能な環境を網羅した。
論文 参考訳(メタデータ) (2022-11-06T05:38:23Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。