論文の概要: Neural Population Learning beyond Symmetric Zero-sum Games
- arxiv url: http://arxiv.org/abs/2401.05133v1
- Date: Wed, 10 Jan 2024 12:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:43:28.944616
- Title: Neural Population Learning beyond Symmetric Zero-sum Games
- Title(参考訳): 対称ゼロサムゲームを超えたニューラル集団学習
- Authors: Siqi Liu, Luke Marris, Marc Lanctot, Georgios Piliouras, Joel Z.
Leibo, Nicolas Heess
- Abstract要約: 我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
- 参考スコア(独自算出の注目度): 52.20454809055356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study computationally efficient methods for finding equilibria in n-player
general-sum games, specifically ones that afford complex visuomotor skills. We
show how existing methods would struggle in this setting, either
computationally or in theory. We then introduce NeuPL-JPSRO, a neural
population learning algorithm that benefits from transfer learning of skills
and converges to a Coarse Correlated Equilibrium (CCE) of the game. We show
empirical convergence in a suite of OpenSpiel games, validated rigorously by
exact game solvers. We then deploy NeuPL-JPSRO to complex domains, where our
approach enables adaptive coordination in a MuJoCo control domain and skill
transfer in capture-the-flag. Our work shows that equilibrium convergent
population learning can be implemented at scale and in generality, paving the
way towards solving real-world games between heterogeneous players with mixed
motives.
- Abstract(参考訳): 本研究では,n-player general-sumゲーム,特に複雑な visuomotor スキルを有するゲームにおける平衡を求めるための計算効率の高い手法について検討した。
計算上または理論上、この設定において既存の手法がいかに苦しむかを示す。
次に,NuPL-JPSROを導入する。これは,スキルの伝達学習の恩恵を受け,ゲームの粗相関平衡(CCE)に収束するニューラル集団学習アルゴリズムである。
我々は,OpenSpielのゲームスイートに経験的収束を示し,正確なゲームソルバによる厳密な検証を行った。
次に、複雑なドメインにNeuPL-JPSROをデプロイし、MuJoCo制御ドメインにおける適応調整とキャプチャー・ザ・フラッグにおけるスキル転送を実現する。
本研究は,均衡収束型集団学習を大規模かつ汎用的に実施できることを示し,混合動機を持つ異種プレイヤー間の実世界のゲーム解決への道を開く。
関連論文リスト
- Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。
また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality [21.94743452608215]
本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。
Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2021-06-24T11:43:38Z) - Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers [21.462231105582347]
本稿では,n-player, general-sum extensive form game におけるエージェントのトレーニングアルゴリズムを提案する。
また,メタソリューションとして相関平衡(CE)を提案するとともに,新しい解法概念であるGini Correlated Equilibrium(MGCE)を提案する。
JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。
論文 参考訳(メタデータ) (2021-06-17T12:34:18Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。