論文の概要: Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach
- arxiv url: http://arxiv.org/abs/2105.08268v1
- Date: Tue, 18 May 2021 04:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 13:52:17.143434
- Title: Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach
- Title(参考訳): 平均的マルチエージェント強化学習のための置換不変ポリシー最適化:原則的アプローチ
- Authors: Yan Li, Lingxiao Wang, Jiachen Yang, Ethan Wang, Zhaoran Wang, Tuo
Zhao, Hongyuan Zha
- Abstract要約: 本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
- 参考スコア(独自算出の注目度): 128.62787284435007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) becomes more challenging in the
presence of more agents, as the capacity of the joint state and action spaces
grows exponentially in the number of agents. To address such a challenge of
scale, we identify a class of cooperative MARL problems with permutation
invariance, and formulate it as a mean-field Markov decision processes (MDP).
To exploit the permutation invariance therein, we propose the mean-field
proximal policy optimization (MF-PPO) algorithm, at the core of which is a
permutation-invariant actor-critic neural architecture. We prove that MF-PPO
attains the globally optimal policy at a sublinear rate of convergence.
Moreover, its sample complexity is independent of the number of agents. We
validate the theoretical advantages of MF-PPO with numerical experiments in the
multi-agent particle environment (MPE). In particular, we show that the
inductive bias introduced by the permutation-invariant neural architecture
enables MF-PPO to outperform existing competitors with a smaller number of
model parameters, which is the key to its generalization performance.
- Abstract(参考訳): 多エージェント強化学習(MARL)は, エージェントの数が指数関数的に増加するにつれて, より多くのエージェントの存在下でより困難になる。
このようなスケール上の課題に対処するために,置換不変性を持つ協調的marl問題のクラスを同定し,平均場マルコフ決定過程(mdp)として定式化する。
そこで,置換不変なアクター批判型ニューラルアーキテクチャのコアとなる平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
さらに、サンプルの複雑さはエージェントの数に依存しない。
マルチエージェント粒子環境(MPE)における数値実験により,MF-PPOの理論的利点を検証する。
特に、置換不変ニューラルアーキテクチャによって引き起こされる帰納バイアスにより、MF-PPOは、その一般化性能の鍵となる、より少ないモデルパラメータで既存の競合より優れていることを示す。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Pre-Evolved Model for Complex Multi-objective Optimization Problems [3.784829029016233]
多目的最適化問題(MOP)は、複数の目的の同時最適化を必要とする。
本稿では、MOEAが多様な複雑なMOPに対して高品質な人口を生み出すための事前進化の概念を提案する。
論文 参考訳(メタデータ) (2023-12-11T05:16:58Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。