論文の概要: Self-Play PSRO: Toward Optimal Populations in Two-Player Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2207.06541v1
- Date: Wed, 13 Jul 2022 22:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 06:17:23.395137
- Title: Self-Play PSRO: Toward Optimal Populations in Two-Player Zero-Sum Games
- Title(参考訳): セルフプレイPSRO: ツープレイゼロサムゲームにおける最適人口に向けて
- Authors: Stephen McAleer, JB Lanier, Kevin Wang, Pierre Baldi, Roy Fox, Tuomas
Sandholm
- Abstract要約: 本稿では,各イテレーションの個体群に対して,ほぼ最適なポリシーを付加する手法であるemphSelf-Play PSRO(SP-PSRO)を紹介する。
SP-PSRO は経験的に APSRO よりもはるかに早く収束する傾向があり、多くのゲームではほんの数イテレーションで収束する。
- 参考スコア(独自算出の注目度): 69.5064797859053
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In competitive two-agent environments, deep reinforcement learning (RL)
methods based on the \emph{Double Oracle (DO)} algorithm, such as \emph{Policy
Space Response Oracles (PSRO)} and \emph{Anytime PSRO (APSRO)}, iteratively add
RL best response policies to a population. Eventually, an optimal mixture of
these population policies will approximate a Nash equilibrium. However, these
methods might need to add all deterministic policies before converging. In this
work, we introduce \emph{Self-Play PSRO (SP-PSRO)}, a method that adds an
approximately optimal stochastic policy to the population in each iteration.
Instead of adding only deterministic best responses to the opponent's least
exploitable population mixture, SP-PSRO also learns an approximately optimal
stochastic policy and adds it to the population as well. As a result, SP-PSRO
empirically tends to converge much faster than APSRO and in many games
converges in just a few iterations.
- Abstract(参考訳): 競合する2エージェント環境において、深層強化学習(RL)法は \emph{Double Oracle (DO)} アルゴリズムに基づいており、例えば \emph{Policy Space Response Oracles (PSRO) や \emph{Anytime PSRO (APSRO) のように、RLの最適応答ポリシーを集団に反復的に付加する。
最終的に、これらの人口政策の最適混合はナッシュ均衡を近似する。
しかし、これらのメソッドは収束する前に決定論的ポリシーを全て追加する必要があるかもしれない。
本研究では,各反復の個体群にほぼ最適な確率的ポリシーを付加する手法である \emph{Self-Play PSRO (SP-PSRO) を紹介する。
sp-psroは、相手の最小搾取可能な人口混合に決定論的最善の反応のみを追加する代わりに、ほぼ最適の確率政策を学び、それを人口にも付加する。
その結果、SP-PSRO は APSRO よりもはるかに早く収束する傾向にあり、多くのゲームではほんの数イテレーションで収束する。
関連論文リスト
- Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - Population-size-Aware Policy Optimization for Mean-Field Games [34.80183622480149]
エージェントの最適なポリシーは,平均フィールドゲームにおけるエージェント数(人口規模)とともにどのように進化するかを検討する。
本稿では,2つの自然な選択肢(拡張とハイパーネットワーク)を統一し,性能を大幅に向上させる,人口規模対応政策最適化(PAPO)を提案する。
PAPOは3つの要素から構成される:i) 集団サイズの本来の値を等価な符号化に変換する集団サイズ符号化、i) トレーニング崩壊を避けるためのハイパーネットワーク、i) 集団サイズで条件付けられた各ゲームに対して異なるポリシーを生成するためのハイパーネットワーク、iii) 生成されたポリシーへの追加入力として人口サイズを生成する。
論文 参考訳(メタデータ) (2023-02-07T10:16:00Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - Anytime Optimal PSRO for Two-Player Zero-Sum Games [17.821479538423155]
Policy Space Response Oracles (PSRO) は、継続的なアクションを扱うことができるゲームのための強化学習アルゴリズムである。
AODOは、ナッシュ均衡に収束する2プレイヤーゼロサムゲームのための二重オラクルアルゴリズムである。
提案手法は, DOやPSROよりもはるかに低いエクスプロイザビリティを実現し, エクスプロイザビリティを向上しないことを示す。
論文 参考訳(メタデータ) (2022-01-19T16:34:11Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z) - Pipeline PSRO: A Scalable Approach for Finding Approximate Nash
Equilibria in Large Games [11.866835246140647]
ポリシー空間応答オラクル(英: Policy Space Response Oracles、PSRO)は、近似的なナッシュ均衡に収束することが保証される深い強化学習アルゴリズムである。
大規模ゲームにおける近似的なナッシュ平衡を求めるための,最初のスケーラブルな一般化手法であるPipeline PSROを紹介する。
また,ストラテゴの変種であるBarrage Strategoのオープンソース環境についても紹介する。
論文 参考訳(メタデータ) (2020-06-15T17:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。