論文の概要: Operator Splitting for Learning to Predict Equilibria in Convex Games
- arxiv url: http://arxiv.org/abs/2106.00906v4
- Date: Tue, 11 Jun 2024 23:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 02:02:19.073952
- Title: Operator Splitting for Learning to Predict Equilibria in Convex Games
- Title(参考訳): コンベックスゲームにおける平衡予測学習のための演算子分割
- Authors: Daniel McKenzie, Howard Heaton, Qiuwei Li, Samy Wu Fung, Stanley Osher, Wotao Yin,
- Abstract要約: 平衡を自然に出力するニューラルネットワークのクラスであるNash Fixed Point Networks (N-FPNs)を紹介する。
N-FPNは暗黙のネットワークをトレーニングするための最近開発されたヤコビアンフリーバックプロパゲーション技術と互換性がある。
実験の結果,N-FPNは既存の学習ゲーム解法よりも桁違いに大きい問題にスケール可能であることがわかった。
- 参考スコア(独自算出の注目度): 26.92001486095397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systems of competing agents can often be modeled as games. Assuming rationality, the most likely outcomes are given by an equilibrium (e.g. a Nash equilibrium). In many practical settings, games are influenced by context, i.e. additional data beyond the control of any agent (e.g. weather for traffic and fiscal policy for market economies). Often the exact game mechanics are unknown, yet vast amounts of historical data consisting of (context, equilibrium) pairs are available, raising the possibility of learning a solver which predicts the equilibria given only the context. We introduce Nash Fixed Point Networks (N-FPNs), a class of neural networks that naturally output equilibria. Crucially, N- FPNs employ a constraint decoupling scheme to handle complicated agent action sets while avoiding expensive projections. Empirically, we find N-FPNs are compatible with the recently developed Jacobian-Free Backpropagation technique for training implicit networks, making them significantly faster and easier to train than prior models. Our experiments show N-FPNs are capable of scaling to problems orders of magnitude larger than existing learned game solvers.
- Abstract(参考訳): 競合するエージェントのシステムは、しばしばゲームとしてモデル化される。
合理性を仮定すると、最も可能性の高い結果は平衡(例えばナッシュ平衡)によって与えられる。
多くの実践的な環境では、ゲームは文脈、すなわちいかなるエージェントの制御以外の追加データ(例えば交通の天気や市場経済の財政政策)に影響を受けている。
正確なゲーム力学は分かっていないが、(コンテキスト、平衡)ペアからなる膨大な歴史的データが利用可能であり、文脈のみに与えられる平衡を予測できる解法を学ぶ可能性を高める。
平衡を自然に出力するニューラルネットワークのクラスであるNash Fixed Point Networks (N-FPNs)を紹介する。
重要なことに、N-FPNは複雑なエージェントアクションセットを扱うために、高価なプロジェクションを避けながら制約デカップリング方式を採用している。
経験的に、N-FPNは暗黙のネットワークをトレーニングするための最近開発されたヤコビアンフリーバックプロパゲーション技術と互換性があり、従来のモデルよりもはるかに高速で訓練が容易である。
実験の結果,N-FPNは既存の学習ゲーム解法よりも桁違いに大きい問題にスケール可能であることがわかった。
関連論文リスト
- On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Multi-Sender Persuasion: A Computational Perspective [41.88812114165843]
マルチベンダーの説得問題を考察する。
計算経済学、マルチエージェント学習、機械学習で広く使われている。
我々は,このゲームの非線形かつ不連続なユーティリティを近似するために,新しい微分可能なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-07T15:50:20Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Turbocharging Solution Concepts: Solving NEs, CEs and CCEs with Neural
Equilibrium Solvers [22.85979978964773]
Nash Equilibria、Correlated Equilibria、Coarse Correlated Equilibriaといったソリューション概念は多くのマルチエージェント機械学習アルゴリズムに有用なコンポーネントである。
本稿では, ニューラルネットワークアーキテクチャを応用して, 固定形状, 購入速度, 決定性のすべてのゲームの空間を大まかに解決するニューラル平衡解法を提案する。
論文 参考訳(メタデータ) (2022-10-17T17:00:31Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret [97.73233271730616]
超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する
DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。
ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
論文 参考訳(メタデータ) (2022-06-08T18:43:45Z) - On the Convergence of Fictitious Play: A Decomposition Approach [17.607284715519587]
我々は、FP(Fictitious Play)の収束結果を、そのようなゲームとそれ以上の組み合わせに拡張する。
我々は,この2種類のゲームが相互に移動可能であるという意味で,協調と競争を統一する線形関係を構築している。
我々は、FPの非収束例であるShapleyゲームを分析し、FPが収束するのに十分な条件を開発する。
論文 参考訳(メタデータ) (2022-05-03T13:04:09Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。