論文の概要: Function Approximation for Solving Stackelberg Equilibrium in Large
Perfect Information Games
- arxiv url: http://arxiv.org/abs/2212.14431v1
- Date: Thu, 29 Dec 2022 19:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 17:23:21.706406
- Title: Function Approximation for Solving Stackelberg Equilibrium in Large
Perfect Information Games
- Title(参考訳): 大規模完全情報ゲームにおけるstackelberg平衡解の関数近似
- Authors: Chun Kai Ling, J. Zico Kolter, Fei Fang
- Abstract要約: 汎用ゲームにおける状態値関数の一般化であるtextitEnforceable Payoff Frontier (EPF) の学習を提案する。
Stackelbergの設定にFAを適用する最初の方法です。
- 参考スコア(独自算出の注目度): 115.77438739169155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Function approximation (FA) has been a critical component in solving large
zero-sum games. Yet, little attention has been given towards FA in solving
\textit{general-sum} extensive-form games, despite them being widely regarded
as being computationally more challenging than their fully competitive or
cooperative counterparts. A key challenge is that for many equilibria in
general-sum games, no simple analogue to the state value function used in
Markov Decision Processes and zero-sum games exists. In this paper, we propose
learning the \textit{Enforceable Payoff Frontier} (EPF) -- a generalization of
the state value function for general-sum games. We approximate the optimal
\textit{Stackelberg extensive-form correlated equilibrium} by representing EPFs
with neural networks and training them by using appropriate backup operations
and loss functions. This is the first method that applies FA to the Stackelberg
setting, allowing us to scale to much larger games while still enjoying
performance guarantees based on FA error. Additionally, our proposed method
guarantees incentive compatibility and is easy to evaluate without having to
depend on self-play or approximate best-response oracles.
- Abstract(参考訳): 関数近似 (fa) は大きなゼロサムゲームを解く上で重要な要素である。
しかし、完全に競争的で協力的なゲームよりも計算が難しいと広く見なされているにもかかわらず、広義のゲームを解くfaに対してはほとんど関心が払われていない。
鍵となる課題は、一般サムゲームにおける多くの平衡に対して、マルコフ決定過程やゼロサムゲームで使われる状態値関数に単純な類似は存在しないことである。
本稿では,一般ゲームにおける状態値関数の一般化である「textit{Enforceable Payoff Frontier} (EPF)」の学習を提案する。
我々は,epfをニューラルネットワークで表現し,適切なバックアップ操作と損失関数を用いてトレーニングすることにより,最適の \textit{stackelberg extensive-form correlationd equilibrium} を近似する。
これはStackelbergの設定にFAを適用する最初の方法であり、FAエラーに基づいたパフォーマンス保証を引き続き享受しながら、ずっと大きなゲームにスケールすることができる。
さらに,提案手法はインセンティブの適合性を保証し,自己再生や最適応答オラクルに頼らずに評価が容易である。
関連論文リスト
- Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Safe Subgame Resolving for Extensive Form Correlated Equilibrium [47.155175336085364]
相関平衡(Correlated Equilibrium)は、ナッシュ平衡(NE)よりも一般的な解概念であり、社会福祉の改善につながる。
テキストサブゲーム解決は,ゼロサムゲームにおけるNEの発見に極めて成功した手法であり,一般サム EFCE の解法である。
サブゲーム解決は、テキストトン方式で相関計画を洗練させる: ゲーム全体を前もって解決するのではなく、実際のプレイで到達したサブゲームにおける戦略のためにのみ解決する。
論文 参考訳(メタデータ) (2022-12-29T14:20:48Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Learning in Mean Field Games: A Survey [44.93300994923148]
平均フィールドゲームズ(MFG)は、プレイヤーの数を無限に増やすために平均フィールド近似に依存する。
MFGにおけるリベリアと社会的最適化のための強化学習法に関する最近の研究
本稿では,MFGを正確に解くための古典的反復法に関する一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:49:37Z) - FL Games: A federated learning framework for distribution shifts [71.98708418753786]
フェデレートラーニングは、サーバのオーケストレーションの下で、クライアント間で分散されたデータの予測モデルをトレーニングすることを目的としている。
本稿では,クライアント間で不変な因果的特徴を学習するためのゲーム理論のフレームワークであるFL Gamesを提案する。
論文 参考訳(メタデータ) (2022-05-23T07:51:45Z) - On the Complexity of Computing Markov Perfect Equilibrium in General-Sum
Stochastic Games [18.48133964089095]
ゲーム(SG)は、マルチエージェント強化学習(MARL)とシーケンシャルエージェント相互作用の研究の基礎となった。
我々は,textbfPPAD-completeの指数的精度において,有限状態SGsゲームにおける近似完全平衡(MPE)を導出する。
その結果,textbfNP=textbfco-NP がなければ,SGs における MPE の発見は textbfNP-hard である可能性が極めて低いことが示唆された。
論文 参考訳(メタデータ) (2021-09-04T05:47:59Z) - Better Regularization for Sequential Decision Spaces: Fast Convergence
Rates for Nash, Correlated, and Team Equilibria [121.36609493711292]
大規模2プレーヤワイドフォームゲームの計算平衡問題に対する反復的な一階法の適用について検討する。
正則化器を用いて一階法をインスタンス化することにより、相関平衡と元アンティー座標のチーム平衡を計算するための最初の加速一階法を開発する。
論文 参考訳(メタデータ) (2021-05-27T06:10:24Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。