論文の概要: FP3O: Enabling Proximal Policy Optimization in Multi-Agent Cooperation
with Parameter-Sharing Versatility
- arxiv url: http://arxiv.org/abs/2310.05053v1
- Date: Sun, 8 Oct 2023 07:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:06:50.492130
- Title: FP3O: Enabling Proximal Policy Optimization in Multi-Agent Cooperation
with Parameter-Sharing Versatility
- Title(参考訳): fp3o:パラメータ共有可能なマルチエージェント協調による近位政策最適化の実現
- Authors: Lang Feng, Dong Xing, Junru Zhang, Gang Pan
- Abstract要約: 既存のマルチエージェントPPOアルゴリズムは、異なるタイプのパラメータ共有と互換性がない。
我々は,FP3O(Full-Pipeline PPO)と呼ばれる実用的アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 13.882557160892686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-agent PPO algorithms lack compatibility with different types
of parameter sharing when extending the theoretical guarantee of PPO to
cooperative multi-agent reinforcement learning (MARL). In this paper, we
propose a novel and versatile multi-agent PPO algorithm for cooperative MARL to
overcome this limitation. Our approach is achieved upon the proposed
full-pipeline paradigm, which establishes multiple parallel optimization
pipelines by employing various equivalent decompositions of the advantage
function. This procedure successfully formulates the interconnections among
agents in a more general manner, i.e., the interconnections among pipelines,
making it compatible with diverse types of parameter sharing. We provide a
solid theoretical foundation for policy improvement and subsequently develop a
practical algorithm called Full-Pipeline PPO (FP3O) by several approximations.
Empirical evaluations on Multi-Agent MuJoCo and StarCraftII tasks demonstrate
that FP3O outperforms other strong baselines and exhibits remarkable
versatility across various parameter-sharing configurations.
- Abstract(参考訳): 既存のマルチエージェントPPOアルゴリズムは、PPOの理論的保証を協調マルチエージェント強化学習(MARL)に拡張する際に、異なるタイプのパラメータ共有と互換性がない。
本稿では,この制限を克服するための協調型MARLのための,新規で汎用なマルチエージェントPPOアルゴリズムを提案する。
提案手法は,アドバンテージ関数の様々な等価分解を用いて複数並列最適化パイプラインを構築する,フルパイプラインパラダイムによって実現される。
この手順は、より一般的な方法でエージェント間の相互接続、すなわちパイプライン間の相互接続を定式化し、様々な種類のパラメータ共有と互換性を持つ。
我々は、政策改善のための確かな理論基盤を提供し、その後いくつかの近似によりフルパイプPPO(FP3O)と呼ばれる実用的なアルゴリズムを開発した。
Multi-Agent MuJoCo タスクと StarCraftII タスクに関する実証的な評価は、FP3O が他の強力なベースラインより優れており、様々なパラメータ共有構成において優れた汎用性を示していることを示している。
関連論文リスト
- Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Coordinated Proximal Policy Optimization [28.780862892562308]
Coordinated Proximal Policy Optimization (CoPPO) は、オリジナルの Proximal Policy Optimization (PPO) をマルチエージェント設定に拡張するアルゴリズムである。
我々は,理論的な共同目的を最適化する際の政策改善の単調性を証明する。
そこで我々は,CoPPOにおけるそのような目的がエージェント間の動的信用割り当てを達成し,エージェントポリシーの同時更新時の高分散問題を軽減することができると解釈した。
論文 参考訳(メタデータ) (2021-11-07T11:14:19Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。