論文の概要: Computing Ex Ante Equilibrium in Heterogeneous Zero-Sum Team Games
- arxiv url: http://arxiv.org/abs/2410.01575v1
- Date: Wed, 2 Oct 2024 14:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:54:49.210220
- Title: Computing Ex Ante Equilibrium in Heterogeneous Zero-Sum Team Games
- Title(参考訳): 不均一ゼロサムチームゲームにおけるエクイティ平衡の計算
- Authors: Naming Liu, Mingzhi Wang, Xihuai Wang, Weinan Zhang, Yaodong Yang, Youzhi Zhang, Bo An, Ying Wen,
- Abstract要約: 政策空間対応Oracleフレームワークにシーケンシャルな相関機構を組み込んだ異種チームゲームのための新しいフレームワークを提案する。
我々は,ヘテロジニアスなチームゲームにおいて,H-PSROがチームPSROよりも低いエクスプロイザビリティを実現することを証明した。
- 参考スコア(独自算出の注目度): 37.476223079724264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ex ante equilibrium for two-team zero-sum games, where agents within each team collaborate to compete against the opposing team, is known to be the best a team can do for coordination. Many existing works on ex ante equilibrium solutions are aiming to extend the scope of ex ante equilibrium solving to large-scale team games based on Policy Space Response Oracle (PSRO). However, the joint team policy space constructed by the most prominent method, Team PSRO, cannot cover the entire team policy space in heterogeneous team games where teammates play distinct roles. Such insufficient policy expressiveness causes Team PSRO to be trapped into a sub-optimal ex ante equilibrium with significantly higher exploitability and never converges to the global ex ante equilibrium. To find the global ex ante equilibrium without introducing additional computational complexity, we first parameterize heterogeneous policies for teammates, and we prove that optimizing the heterogeneous teammates' policies sequentially can guarantee a monotonic improvement in team rewards. We further propose Heterogeneous-PSRO (H-PSRO), a novel framework for heterogeneous team games, which integrates the sequential correlation mechanism into the PSRO framework and serves as the first PSRO framework for heterogeneous team games. We prove that H-PSRO achieves lower exploitability than Team PSRO in heterogeneous team games. Empirically, H-PSRO achieves convergence in matrix heterogeneous games that are unsolvable by non-heterogeneous baselines. Further experiments reveal that H-PSRO outperforms non-heterogeneous baselines in both heterogeneous team games and homogeneous settings.
- Abstract(参考訳): 2チーム間のゼロサムゲームでは、各チームのエージェントが相手チームと競争するために協力し、チームが調整するためにできる最善の方法として知られています。
エキサイト均衡解に関する多くの既存の研究は、エキサイト均衡解のスコープを政策空間応答オラクル(PSRO)に基づく大規模チームゲームに拡張することを目指している。
しかし、最も著名な方法であるチームPSROによって構成される共同チームポリシー空間は、チームメイトが異なる役割を演じる異種チームゲームにおいて、チームポリシー空間全体をカバーできない。
このような政策表現性が不十分なため、チームPSROは、非常に高い利用性を持つ準最適エキアンテ均衡に閉じ込められ、グローバルエキアンテ均衡に収束することはない。
計算量を増やすことなくグローバルなエクアンテ均衡を見出すため、まずチームメイトの異種ポリシーをパラメータ化し、不均一なチームメイトのポリシーを逐次最適化することでチーム報酬の単調な改善を保証できることを証明した。
さらに、PSROフレームワークにシーケンシャル相関機構を統合し、異種チームゲームのための最初のPSROフレームワークとして機能する、異種チームゲームのための新しいフレームワークであるHeterogeneous-PSRO(H-PSRO)を提案する。
我々は,ヘテロジニアスなチームゲームにおいて,H-PSROがチームPSROよりも低いエクスプロイザビリティを実現することを証明した。
経験的に、H-PSROは非異種基底線で解けない行列不均一ゲームにおいて収束する。
さらなる実験により、H-PSROは不均一なチームゲームと均質な設定の両方において非不均一なベースラインよりも優れていることが明らかになった。
関連論文リスト
- An Extensible Framework for Open Heterogeneous Collaborative Perception [58.70875361688463]
協調的な知覚は、単一エージェントの知覚の限界を緩和することを目的としている。
本稿では,新しい異種エージェントを協調認識に適応させる方法を提案する。
本稿では,新しい協調認識フレームワークであるHeterogeneous ALliance(HEAL)を提案する。
論文 参考訳(メタデータ) (2024-01-25T05:55:03Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - Pareto Actor-Critic for Equilibrium Selection in Multi-Agent
Reinforcement Learning [18.20664209675016]
この研究は、競合しないマルチエージェントゲームにおける平衡選択に焦点を当てている。
Pareto Actor-Critic (Pareto-AC)は、すべてのエージェントのリターンを最大化するアクター批判アルゴリズムである。
論文 参考訳(メタデータ) (2022-09-28T18:14:34Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Self-Play PSRO: Toward Optimal Populations in Two-Player Zero-Sum Games [69.5064797859053]
本稿では,各イテレーションの個体群に対して,ほぼ最適なポリシーを付加する手法であるemphSelf-Play PSRO(SP-PSRO)を紹介する。
SP-PSRO は経験的に APSRO よりもはるかに早く収束する傾向があり、多くのゲームではほんの数イテレーションで収束する。
論文 参考訳(メタデータ) (2022-07-13T22:55:51Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - Emergent Reciprocity and Team Formation from Randomized Uncertain Social
Preferences [8.10414043447031]
我々は,不確実な社会的嗜好(RUSP)をランダム化した訓練エージェントの創発的相互性,間接的相互性,評価,チーム形成の証拠を示す。
RUSPは汎用的でスケーラブルであり、元のゲームダイナミクスや目的を変更することなく、任意のマルチエージェント環境に適用することができる。
特に、RUSPではこれらの行動が出現し、より複雑な時間的環境において、Iterated Prisoner's Dilemmaのような古典的な抽象的社会ジレンマの社会福祉均衡をもたらすことが示される。
論文 参考訳(メタデータ) (2020-11-10T20:06:19Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。