論文の概要: Regularization of the policy updates for stabilizing Mean Field Games
- arxiv url: http://arxiv.org/abs/2304.01547v2
- Date: Thu, 13 Apr 2023 13:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:57:06.500546
- Title: Regularization of the policy updates for stabilizing Mean Field Games
- Title(参考訳): 平均フィールドゲーム安定化のためのポリシー更新の規則化
- Authors: Talal Algumaei, Ruben Solozabal, Reda Alami, Hakim Hacid, Merouane
Debbah, Martin Takac
- Abstract要約: 本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
- 参考スコア(独自算出の注目度): 0.2348805691644085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies non-cooperative Multi-Agent Reinforcement Learning (MARL)
where multiple agents interact in the same environment and whose goal is to
maximize the individual returns. Challenges arise when scaling up the number of
agents due to the resultant non-stationarity that the many agents introduce. In
order to address this issue, Mean Field Games (MFG) rely on the symmetry and
homogeneity assumptions to approximate games with very large populations.
Recently, deep Reinforcement Learning has been used to scale MFG to games with
larger number of states. Current methods rely on smoothing techniques such as
averaging the q-values or the updates on the mean-field distribution. This work
presents a different approach to stabilize the learning based on proximal
updates on the mean-field policy. We name our algorithm Mean Field Proximal
Policy Optimization (MF-PPO), and we empirically show the effectiveness of our
method in the OpenSpiel framework.
- Abstract(参考訳): 本研究は,複数エージェントが同一環境下で相互作用する非協調的マルチエージェント強化学習(MARL)について検討する。
多くのエージェントが導入する非定常性によってエージェント数をスケールアップする場合、課題が発生する。
この問題に対処するため、平均場ゲームズ(MFG)は対称性と均一性の仮定を非常に人口の多い近似ゲームに頼っている。
近年,MFGを多数の状態を持つゲームに拡張するために,深層強化学習が用いられている。
現在の方法は、q値の平均化や平均場分布の更新のような平滑化技術に依存している。
本研究は,平均場ポリシーの近位更新に基づく学習を安定化するための異なるアプローチを示す。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
関連論文リスト
- A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Decentralized Multi-Agent Reinforcement Learning for Continuous-Space
Stochastic Games [0.0]
汎用状態空間を分散化したゲームにおけるマルチエージェント学習と,エージェントが互いの行動を観察しない情報構造について検討する。
我々は,MARLアルゴリズムを提案し,そのポリシー更新のほぼ最適性を証明した。
論文 参考訳(メタデータ) (2023-03-16T14:25:16Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Reinforcement Learning for Mean Field Games, with Applications to
Economics [0.0]
平均場ゲーム(MFG)および平均場制御問題(平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題)は、エージェントの連続体を持つゲームにおいてナッシュ平衡または社会的最適性を研究するためのフレームワークである。
本稿では,MFGとMFCのためのRLを用いた2つの時間スケールアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-25T16:45:04Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。