論文の概要: A General Framework for Learning Mean-Field Games
- arxiv url: http://arxiv.org/abs/2003.06069v2
- Date: Sun, 10 Oct 2021 07:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:23:26.217247
- Title: A General Framework for Learning Mean-Field Games
- Title(参考訳): 平均フィールドゲーム学習のための汎用フレームワーク
- Authors: Xin Guo, Anran Hu, Renyuan Xu and Junzi Zhang
- Abstract要約: 本稿では,人口の多いゲームにおいて,同時学習と意思決定を同時に行う汎用平均場ゲーム(GMFG)フレームワークを提案する。
次に、スムーズなポリシーを持つ価値ベースおよびポリシーベースの強化学習アルゴリズムを提案する。
GMF-V-QとGMF-P-TRPO(GMF-VとGMF-Pの2つの特定のインスタンス化)とQラーニングとTRPOは、GMFG設定において効率的かつ堅牢であることを示した。
- 参考スコア(独自算出の注目度): 10.483303456655058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a general mean-field game (GMFG) framework for
simultaneous learning and decision-making in stochastic games with a large
population. It first establishes the existence of a unique Nash Equilibrium to
this GMFG, and demonstrates that naively combining reinforcement learning with
the fixed-point approach in classical MFGs yields unstable algorithms. It then
proposes value-based and policy-based reinforcement learning algorithms (GMF-V
and GMF-P, respectively) with smoothed policies, with analysis of their
convergence properties and computational complexities. Experiments on an
equilibrium product pricing problem demonstrate that GMF-V-Q and GMF-P-TRPO,
two specific instantiations of GMF-V and GMF-P, respectively, with Q-learning
and TRPO, are both efficient and robust in the GMFG setting. Moreover, their
performance is superior in convergence speed, accuracy, and stability when
compared with existing algorithms for multi-agent reinforcement learning in the
$N$-player setting.
- Abstract(参考訳): 本稿では,人口の多い確率ゲームにおいて,学習と意思決定を同時に行う汎用平均場ゲーム(GMFG)フレームワークを提案する。
このgmfgに対する一意なnash平衡の存在を最初に確立し、古典的mfgにおける強化学習と固定点アプローチが不安定なアルゴリズムをもたらすことを証明している。
次に,値に基づく強化学習アルゴリズム(GMF-VとGMF-P)を提案し,その収束特性と計算複雑性を解析した。
GMF-V-QとGMF-P-TRPO(GMF-VとGMF-Pの2つの特定のインスタンス化)とQラーニングとTRPOは、GMFG設定において効率的かつ堅牢であることを示した。
さらに,N$-player設定において,既存のマルチエージェント強化学習アルゴリズムと比較して,収束速度,精度,安定性が優れている。
関連論文リスト
- uniINF: Best-of-Both-Worlds Algorithm for Parameter-Free Heavy-Tailed MABs [33.262918224598614]
本稿では,HTMAB(Heavy-Tailed Multi-Armed Bandits)問題に対する新しいアルゴリズムを提案する。
我々の新しいアルゴリズムユニは、Best-of-Both-Worlds(BoBW)特性を楽しみ、両環境とも最適に機能する。
我々の知る限り、UniINFは重み付きMAB問題に対するBoBW特性を達成する最初のパラメータフリーアルゴリズムである。
論文 参考訳(メタデータ) (2024-10-04T09:55:44Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Reinforcement Learning for SBM Graphon Games with Re-Sampling [4.6648272529750985]
我々は,リサンプリング(GGR-S)モデルを用いたグラフゲームに基づく新しい学習フレームワークを開発した。
我々はGGR-Sのダイナミクスを解析し,MP-MFGのダイナミックスへの収束を確立する。
論文 参考訳(メタデータ) (2023-10-25T03:14:48Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - On the Statistical Efficiency of Mean-Field Reinforcement Learning with General Function Approximation [20.66437196305357]
平均フィールド制御(MFC)および平均フィールドゲーム(MFG)における強化学習の基本統計的効率を一般モデルに基づく関数近似を用いて検討する。
我々は平均場モデルクラス固有の複雑さを特徴付ける平均場モデルベースエルダー次元(MF-MBED)という新しい概念を導入する。
論文 参考訳(メタデータ) (2023-05-18T20:00:04Z) - Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated
Learning Framework [82.36466358313025]
我々はFedVRAと呼ばれる原始二重FLアルゴリズムを提案し、このアルゴリズムはグローバルモデルの分散還元レベルとバイアスを適応的に制御することができる。
半教師付き画像分類タスクに基づく実験は,既存の手法よりもFedVRAの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-12-03T03:27:51Z) - Individual-Level Inverse Reinforcement Learning for Mean Field Games [16.79251229846642]
Mean Field IRL (MFIRL) は、MFGのための最初の専用のIRLフレームワークであり、協調環境と非協調環境の両方を扱うことができる。
未知のダイナミクスを持つMFGに対して有効な実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-13T20:35:01Z) - Kernelized Multiplicative Weights for 0/1-Polyhedral Games: Bridging the
Gap Between Learning in Extensive-Form and Normal-Form Games [76.21916750766277]
カーネルトリックを用いて,最適乗算重み更新(OMWU)アルゴリズムをゲームツリーサイズ毎のリニア時間でEFGの正規形等価値にシミュレート可能であることを示す。
特に、KoMWUは、最終点収束を同時に保証する最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-01T06:28:51Z) - Near-Optimal No-Regret Learning for Correlated Equilibria in
Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。
外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文 参考訳(メタデータ) (2021-11-11T01:19:53Z) - Reinforcement Learning for Mean Field Games with Strategic
Complementarities [10.281006908092932]
我々は、Trembling-Hand-Perfect MFE(T-MFE)と呼ぶ平衡概念を自然に洗練する。
本稿では,T-MFEを既知のモデルで計算する簡単なアルゴリズムを提案する。
また、T-MFE学習のためのモデルフリーおよびモデルベースアプローチを導入し、両方のアルゴリズムの複雑なサンプルを提供する。
論文 参考訳(メタデータ) (2020-06-21T00:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。