論文の概要: Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games
- arxiv url: http://arxiv.org/abs/2310.03354v1
- Date: Thu, 5 Oct 2023 07:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 17:15:49.054002
- Title: Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games
- Title(参考訳): クロスプレイ: 複合協調競技におけるグローバルナッシュ均衡の学習
- Authors: Zelai Xu, Yancheng Liang, Chao Yu, Yu Wang, Yi Wu
- Abstract要約: セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
- 参考スコア(独自算出の注目度): 14.979239870856535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-play (SP) is a popular multi-agent reinforcement learning (MARL)
framework for solving competitive games, where each agent optimizes policy by
treating others as part of the environment. Despite the empirical successes,
the theoretical properties of SP-based methods are limited to two-player
zero-sum games. However, for mixed cooperative-competitive games where agents
on the same team need to cooperate with each other, we can show a simple
counter-example where SP-based methods cannot converge to a global Nash
equilibrium (NE) with high probability. Alternatively, Policy-Space Response
Oracles (PSRO) is an iterative framework for learning NE, where the best
responses w.r.t. previous policies are learned in each iteration. PSRO can be
directly extended to mixed cooperative-competitive settings by jointly learning
team best responses with all convergence properties unchanged. However, PSRO
requires repeatedly training joint policies from scratch till convergence,
which makes it hard to scale to complex games. In this work, we develop a novel
algorithm, Fictitious Cross-Play (FXP), which inherits the benefits from both
frameworks. FXP simultaneously trains an SP-based main policy and a counter
population of best response policies. The main policy is trained by fictitious
self-play and cross-play against the counter population, while the counter
policies are trained as the best responses to the main policy's past versions.
We validate our method in matrix games and show that FXP converges to global
NEs while SP methods fail. We also conduct experiments in a gridworld domain,
where FXP achieves higher Elo ratings and lower exploitabilities than
baselines, and a more challenging football game, where FXP defeats SOTA models
with over 94% win rate.
- Abstract(参考訳): セルフプレイ(SP)は、競合ゲームを解決するために人気のあるマルチエージェント強化学習(MARL)フレームワークであり、各エージェントは、他のエージェントを環境の一部として扱うことでポリシーを最適化する。
経験的成功にもかかわらず、SP法の理論的性質は2プレイヤーゼロサムゲームに限定されている。
しかし、同一チームのエージェントが互いに協力する必要がある混合協調競争ゲームでは、SPベースの手法が高い確率でグローバルなナッシュ均衡(NE)に収束できない単純な反例を示すことができる。
あるいは、ポリシー空間対応オラクル(PSRO)はNEを学習するための反復的なフレームワークであり、各イテレーションで最も優れたレスポンスが学習される。
PSROは、すべての収束特性が変化せずに、共同でチームのベストレスポンスを学習することで、混合協調競合設定に直接拡張することができる。
しかしPSROは、スクラッチから収束までのジョイントポリシーを繰り返し訓練する必要があるため、複雑なゲームにスケールするのは困難である。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
FXPはSPベースのメインポリシーとベストレスポンスポリシーの対抗集団を同時に訓練する。
主な政策は、架空の自己再生と反人口に対するクロスプレイによって訓練され、反政策は、主政策の過去のバージョンに対する最良の反応として訓練される。
本手法を行列ゲームで検証し,SP法が失敗している間にFXPがグローバルNEに収束することを示す。
また、fxpがベースラインよりも高いエロレーティングと低いエクスプロイラビリティを達成し、さらにfxpが94%以上の勝率でsataモデルを打ち破る、より挑戦的なフットボールゲームも行っています。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Self-Play PSRO: Toward Optimal Populations in Two-Player Zero-Sum Games [69.5064797859053]
本稿では,各イテレーションの個体群に対して,ほぼ最適なポリシーを付加する手法であるemphSelf-Play PSRO(SP-PSRO)を紹介する。
SP-PSRO は経験的に APSRO よりもはるかに早く収束する傾向があり、多くのゲームではほんの数イテレーションで収束する。
論文 参考訳(メタデータ) (2022-07-13T22:55:51Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - Joint Policy Search for Multi-agent Collaboration with Imperfect
Information [31.559835225116473]
我々は,各情報集合に局所化されるポリシー変更に対して,ゲーム値のグローバルな変化を分解可能であることを示す。
本稿では,不完全な情報ゲームにおける協調エージェントの協調ポリシーを反復的に改善する共同ポリシー探索を提案する。
論文 参考訳(メタデータ) (2020-08-14T17:58:47Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。