論文の概要: Policy Mirror Ascent for Efficient and Independent Learning in Mean
Field Games
- arxiv url: http://arxiv.org/abs/2212.14449v2
- Date: Fri, 9 Jun 2023 12:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 17:57:33.344505
- Title: Policy Mirror Ascent for Efficient and Independent Learning in Mean
Field Games
- Title(参考訳): 平均フィールドゲームにおける効率的・独立学習のためのポリシーミラーアセンシング
- Authors: Batuhan Yardim, Semih Cayci, Matthieu Geist, Niao He
- Abstract要約: 平均場ゲームは対称および匿名の$N$-playerゲームに対して近似的なナッシュ均衡を得るための理論的ツールとして使われてきた。
ポリシーミラーを実行する$N$エージェントは、$widetildemathcalO(varepsilon-2)$サンプル内で正規化ゲームのナッシュ平衡に収束することを示す。
- 参考スコア(独自算出の注目度): 35.86199604587823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean-field games have been used as a theoretical tool to obtain an
approximate Nash equilibrium for symmetric and anonymous $N$-player games.
However, limiting applicability, existing theoretical results assume variations
of a "population generative model", which allows arbitrary modifications of the
population distribution by the learning algorithm. Moreover, learning
algorithms typically work on abstract simulators with population instead of the
$N$-player game. Instead, we show that $N$ agents running policy mirror ascent
converge to the Nash equilibrium of the regularized game within
$\widetilde{\mathcal{O}}(\varepsilon^{-2})$ samples from a single sample
trajectory without a population generative model, up to a standard
$\mathcal{O}(\frac{1}{\sqrt{N}})$ error due to the mean field. Taking a
divergent approach from the literature, instead of working with the
best-response map we first show that a policy mirror ascent map can be used to
construct a contractive operator having the Nash equilibrium as its fixed
point. We analyze single-path TD learning for $N$-agent games, proving sample
complexity guarantees by only using a sample path from the $N$-agent simulator
without a population generative model. Furthermore, we demonstrate that our
methodology allows for independent learning by $N$ agents with finite sample
guarantees.
- Abstract(参考訳): 平均場ゲームは、対称で匿名の$n$-playerゲームのナッシュ均衡を得るための理論的ツールとして使われてきた。
しかし、適用性を制限するため、既存の理論結果は「集団生成モデル」のバリエーションを仮定し、学習アルゴリズムによる集団分布の任意の修正を可能にする。
さらに、学習アルゴリズムは一般に$N$-playerゲームの代わりに人口を持つ抽象シミュレータで動作する。
代わりに、n$エージェントがポリシーミラーを実行すると、平均場に起因する標準の$\mathcal{o}(\frac{1}{\sqrt{n}})$エラーまで、集団生成モデルのない単一のサンプル軌道からのサンプルが、$\widetilde{\mathcal{o}}(\varepsilon^{-2})の範囲内で正規化されたゲームのnash平衡に収束する。
文献から異なるアプローチをとることで、最善の応答写像を扱う代わりに、まずポリシーミラー上昇写像を用いてnash平衡を固定点とする収縮作用素を構築することができることを示した。
n$-agentゲームのための単一パスtd学習を分析し,人口生成モデルを用いず,n$-agentシミュレータからのサンプルパスのみを用いてサンプル複雑性の保証を証明した。
さらに,本手法はサンプル保証が有限である$N$エージェントによる独立学習を可能にすることを示す。
関連論文リスト
- Last-Iterate Convergence of Payoff-Based Independent Learning in Zero-Sum Stochastic Games [31.554420227087043]
両プレイヤー間のペイオフベース、収束、合理的、対称な学習ダイナミクスを開発する。
行列ゲーム設定では、結果はナッシュ分布を見つけるために$O(epsilon-1)$の複雑さを意味する。
ゲーム設定では、結果はナッシュ平衡を求めるために$O(epsilon-8)$の複雑さをも意味している。
論文 参考訳(メタデータ) (2024-09-02T20:07:25Z) - Exploiting Approximate Symmetry for Efficient Multi-Agent Reinforcement Learning [19.543995541149897]
我々は、任意の有限プレイヤー、おそらく非対称なゲームから「誘導MFG」に拡張する方法論を提供する。
まず、$N$-player の動的ゲームは、明示的な Kirszbraun 拡張によって、無限プレーヤ連続体に対称性を持ち、滑らかに拡張できることを示す。
単調性を満たす特定のゲームに対しては、$widetildemathcalO(varepsilon-6)$のサンプル複雑性を証明し、$N$エージェントゲームに対して、$varepsilon$-Nashを対称性バイアスまで学習する。
論文 参考訳(メタデータ) (2024-08-27T16:11:20Z) - MF-OML: Online Mean-Field Reinforcement Learning with Occupation Measures for Large Population Games [5.778024594615575]
本稿では,シーケンシャルゲームのナッシュ平衡計算のためのオンライン平均場強化学習アルゴリズムを提案する。
MFOMLは、ナッシュ平衡を実証的に解くための、最初の完全近似マルチエージェント強化学習アルゴリズムである。
副生成物として、モノトーン平均場ゲームの近似計算のための最初のトラクタブル大域収束計算も得られる。
論文 参考訳(メタデータ) (2024-05-01T02:19:31Z) - Scalable and Independent Learning of Nash Equilibrium Policies in
$n$-Player Stochastic Games with Unknown Independent Chains [1.0878040851638]
独立な連鎖と未知の遷移行列を持つゲームについて研究する。
このクラスのゲームでは、プレイヤーは他のプレイヤーの状態や行動に依存しない内部マルコフ連鎖を制御する。
我々は、$epsilon$-NEポリシーを学ぶために、完全に分散化されたミラー降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T03:04:09Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。
我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。
我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文 参考訳(メタデータ) (2020-10-04T15:27:39Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。