論文の概要: Provable Fictitious Play for General Mean-Field Games
- arxiv url: http://arxiv.org/abs/2010.04211v1
- Date: Thu, 8 Oct 2020 18:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:59:21.051770
- Title: Provable Fictitious Play for General Mean-Field Games
- Title(参考訳): 一般的な平均フィールドゲームのための確率的プレイ
- Authors: Qiaomin Xie, Zhuoran Yang, Zhaoran Wang, Andreea Minca
- Abstract要約: 静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
- 参考スコア(独自算出の注目度): 111.44976345867005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a reinforcement learning algorithm for stationary mean-field
games, where the goal is to learn a pair of mean-field state and stationary
policy that constitutes the Nash equilibrium. When viewing the mean-field state
and the policy as two players, we propose a fictitious play algorithm which
alternatively updates the mean-field state and the policy via gradient-descent
and proximal policy optimization, respectively. Our algorithm is in stark
contrast with previous literature which solves each single-agent reinforcement
learning problem induced by the iterates mean-field states to the optimum.
Furthermore, we prove that our fictitious play algorithm converges to the Nash
equilibrium at a sublinear rate. To the best of our knowledge, this seems the
first provably convergent single-loop reinforcement learning algorithm for
mean-field games based on iterative updates of both mean-field state and
policy.
- Abstract(参考訳): そこでは,ナッシュ均衡を構成する平均フィールド状態と定常ポリシーのペアを学習することを目的として,静止平均フィールドゲームのための強化学習アルゴリズムを提案する。
平均場状態とポリシーを2人のプレイヤーとして見る場合, それぞれ勾配・近位政策最適化によって平均場状態とポリシーを交互に更新する架空の遊びアルゴリズムを提案する。
提案アルゴリズムは, 反復平均場状態から最適状態へ誘導される各単エージェント強化学習問題を解く従来の文献とは対照的である。
さらに,我々の架空のプレイアルゴリズムは,サブ線形速度でナッシュ平衡に収束することを示す。
我々の知る限り、これは平均場状態とポリシーの両方の反復的な更新に基づいて、平均場ゲームに対して証明可能な収束シングルループ強化学習アルゴリズムである。
関連論文リスト
- COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences [31.988100672680154]
本稿では,言語モデルアライメントのためのメタアルゴリズムである Convergent Meta Alignment Algorithm (COMAL) を提案する。
我々のメタアルゴリズムは単純であり、RLHFと優先最適化のために設計された多くの既存手法と統合することができる。
論文 参考訳(メタデータ) (2024-10-30T17:13:02Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - On the convergence of policy gradient methods to Nash equilibria in
general stochastic games [33.786186304912]
ナッシュ均衡政策に関する政策勾配法の長期的挙動について検討する。
本稿では,REINFORCEアルゴリズムによって得られる勾配推定値を持つ政策勾配軌跡を$mathcalO (1/sqrtn)$ distance-squared convergence rate とする。
論文 参考訳(メタデータ) (2022-10-17T08:51:59Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum
Markov Games [95.70078702838654]
本論文では,自然政策グラディエントアルゴリズムの自然拡張について検討する。
我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。
論文 参考訳(メタデータ) (2021-02-17T17:49:57Z) - Last-iterate Convergence of Decentralized Optimistic Gradient
Descent/Ascent in Infinite-horizon Competitive Markov Games [37.70703888365849]
無限水平割引2プレイヤーゼロサムマルコフゲームについて検討する。
我々は,自己再生下でのナッシュ均衡に収束する分散アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-02-08T21:45:56Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。