論文の概要: Computing equilibria by minimizing exploitability with best-response
ensembles
- arxiv url: http://arxiv.org/abs/2301.08830v1
- Date: Fri, 20 Jan 2023 23:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 16:15:46.325034
- Title: Computing equilibria by minimizing exploitability with best-response
ensembles
- Title(参考訳): ベストレスポンスアンサンブルによる利用性最小化による計算平衡
- Authors: Carlos Martin, Tuomas Sandholm
- Abstract要約: 連続ゲームのナッシュ平衡を近似的に計算する問題について検討する。
戦略プロファイルとナッシュ均衡の密接度に関する標準的な尺度は、悪用性である。
評価可能性の近似を最小化する新しい平衡フィニング法を提案する。
- 参考スコア(独自算出の注目度): 83.28949556413717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of computing an approximate Nash
equilibrium of a continuous game. Such games naturally model many situations
involving space, time, money, and other fine-grained resources or quantities.
The standard measure of the closeness of a strategy profile to Nash equilibrium
is exploitability, which measures how much utility players can gain from
changing their strategy unilaterally. We introduce a new equilibrium-finding
method that minimizes an approximation of the exploitability. This
approximation employs a best-response ensemble for each player that maintains
multiple candidate best responses for that player. In each iteration, the
best-performing element of each ensemble is used in a gradient-based scheme to
update the current strategy profile. The strategy profile and best-response
ensembles are simultaneously trained to minimize and maximize the approximate
exploitability, respectively. Experiments on a suite of benchmark games show
that it outperforms previous methods.
- Abstract(参考訳): 本稿では,連続ゲームのナッシュ平衡を近似的に計算する問題について検討する。
このようなゲームは、空間、時間、お金、その他の細かい資源や量を含む多くの状況を自然にモデル化する。
戦略プロファイルのナッシュ均衡への近さの標準的な尺度は、プレーヤが戦略を一方的に変更することでどれだけの利益を得ることができるかを測定する搾取可能性である。
評価可能性の近似を最小化する新しい平衡フィニング法を提案する。
この近似は各プレイヤーにベスト・レスポンス・アンサンブルを用いており、各プレイヤーには複数の候補のベスト・レスポンスを維持できる。
各イテレーションでは、各アンサンブルのベストパフォーマンス要素をグラデーションベースのスキームで使用して、現在の戦略プロファイルを更新する。
戦略プロファイルと最善応答アンサンブルは、それぞれ、近似利用性を最小化し、最大化するために同時に訓練される。
一連のベンチマークゲームの実験では、以前の方法よりも優れていた。
関連論文リスト
- Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Anytime Optimal PSRO for Two-Player Zero-Sum Games [17.821479538423155]
Policy Space Response Oracles (PSRO) は、継続的なアクションを扱うことができるゲームのための強化学習アルゴリズムである。
AODOは、ナッシュ均衡に収束する2プレイヤーゼロサムゲームのための二重オラクルアルゴリズムである。
提案手法は, DOやPSROよりもはるかに低いエクスプロイザビリティを実現し, エクスプロイザビリティを向上しないことを示す。
論文 参考訳(メタデータ) (2022-01-19T16:34:11Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。