論文の概要: Convergence of Deep Fictitious Play for Stochastic Differential Games
- arxiv url: http://arxiv.org/abs/2008.05519v2
- Date: Sun, 21 Mar 2021 07:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 06:20:08.296356
- Title: Convergence of Deep Fictitious Play for Stochastic Differential Games
- Title(参考訳): 確率微分ゲームにおけるディープフィクションプレイの収束性
- Authors: Jiequn Han, Ruimeng Hu, Jihao Long
- Abstract要約: 最近提案された機械学習アルゴリズム、Deep fictitious Playは、大きな$N$非対称微分ゲームにおけるマルコフ的ナッシュ均衡を見つけるための、新しい効率的なツールを提供する。
架空のプレイの概念を取り入れることで、アルゴリズムはゲームを$N$のサブ最適化問題に分解する。
DFPに基づく戦略が$eps$-Nash均衡を形成することを示す。
- 参考スコア(独自算出の注目度): 6.875312133832078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic differential games have been used extensively to model agents'
competitions in Finance, for instance, in P2P lending platforms from the
Fintech industry, the banking system for systemic risk, and insurance markets.
The recently proposed machine learning algorithm, deep fictitious play,
provides a novel efficient tool for finding Markovian Nash equilibrium of large
$N$-player asymmetric stochastic differential games [J. Han and R. Hu,
Mathematical and Scientific Machine Learning Conference, pages 221-245, PMLR,
2020]. By incorporating the idea of fictitious play, the algorithm decouples
the game into $N$ sub-optimization problems, and identifies each player's
optimal strategy with the deep backward stochastic differential equation (BSDE)
method parallelly and repeatedly. In this paper, we prove the convergence of
deep fictitious play (DFP) to the true Nash equilibrium. We can also show that
the strategy based on DFP forms an $\eps$-Nash equilibrium. We generalize the
algorithm by proposing a new approach to decouple the games, and present
numerical results of large population games showing the empirical convergence
of the algorithm beyond the technical assumptions in the theorems.
- Abstract(参考訳): 確率的微分ゲームは、例えばフィンテック業界やシステムリスクの銀行システム、保険市場からのp2p融資プラットフォームにおける金融におけるエージェントの競争をモデル化するために広く使われている。
最近提案された機械学習アルゴリズムdeep fictitious playは、大規模なn$-player asymmetric stochastic differential games [j. han and r. hu, mathematical and scientific machine learning conference, pages 221-245, pmlr, 2020]のマルコフナッシュ平衡を見つけるための新しい効率的なツールを提供する。
架空のプレイの概念を取り入れることで、アルゴリズムはゲームを$N$のサブ最適化問題に分解し、各プレイヤーの最適な戦略を奥行き確率微分方程式(BSDE)法で並列かつ繰り返し識別する。
本稿では,深い架空の遊び(DFP)の真のナッシュ均衡への収束を実証する。
また、DFPに基づく戦略が$\eps$-Nash均衡を形成することを示すこともできる。
我々は,このアルゴリズムをゲームを切り離す新しいアプローチを提案し,定理の技術的仮定を超えたアルゴリズムの実証的な収束を示す大集団ゲームの数値結果を示すことによって一般化する。
関連論文リスト
- Last-Iterate Convergence of Payoff-Based Independent Learning in Zero-Sum Stochastic Games [31.554420227087043]
両プレイヤー間のペイオフベース、収束、合理的、対称な学習ダイナミクスを開発する。
行列ゲーム設定では、結果はナッシュ分布を見つけるために$O(epsilon-1)$の複雑さを意味する。
ゲーム設定では、結果はナッシュ平衡を求めるために$O(epsilon-8)$の複雑さをも意味している。
論文 参考訳(メタデータ) (2024-09-02T20:07:25Z) - On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Scalable and Independent Learning of Nash Equilibrium Policies in
$n$-Player Stochastic Games with Unknown Independent Chains [1.0878040851638]
独立な連鎖と未知の遷移行列を持つゲームについて研究する。
このクラスのゲームでは、プレイヤーは他のプレイヤーの状態や行動に依存しない内部マルコフ連鎖を制御する。
我々は、$epsilon$-NEポリシーを学ぶために、完全に分散化されたミラー降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T03:04:09Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - On the Convergence of Fictitious Play: A Decomposition Approach [17.607284715519587]
我々は、FP(Fictitious Play)の収束結果を、そのようなゲームとそれ以上の組み合わせに拡張する。
我々は,この2種類のゲームが相互に移動可能であるという意味で,協調と競争を統一する線形関係を構築している。
我々は、FPの非収束例であるShapleyゲームを分析し、FPが収束するのに十分な条件を開発する。
論文 参考訳(メタデータ) (2022-05-03T13:04:09Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。