論文の概要: Evolutionary Game Theory Squared: Evolving Agents in Endogenously
Evolving Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2012.08382v1
- Date: Tue, 15 Dec 2020 15:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:05:23.253339
- Title: Evolutionary Game Theory Squared: Evolving Agents in Endogenously
Evolving Zero-Sum Games
- Title(参考訳): 進化ゲーム理論--内在的に進化するゼロサムゲームにおけるエージェントの進化
- Authors: Stratis Skoulakis, Tanner Fiez, Ryann Sim, Georgios Piliouras, Lillian
Ratliff
- Abstract要約: 本稿では、エージェントとプレイするゲームの両方が戦略的に進化する競争環境のクラスを紹介し、分析する。
エージェントの人口は、現在の人口混合物に反対して進化するゼロサム競争で互いに競います。
驚くべきことに、エージェントとゲームのカオスな共進化にもかかわらず、システムは多くの規則性を示すことを証明しています。
- 参考スコア(独自算出の注目度): 27.510231246176033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The predominant paradigm in evolutionary game theory and more generally
online learning in games is based on a clear distinction between a population
of dynamic agents that interact given a fixed, static game. In this paper, we
move away from the artificial divide between dynamic agents and static games,
to introduce and analyze a large class of competitive settings where both the
agents and the games they play evolve strategically over time. We focus on
arguably the most archetypal game-theoretic setting -- zero-sum games (as well
as network generalizations) -- and the most studied evolutionary learning
dynamic -- replicator, the continuous-time analogue of multiplicative weights.
Populations of agents compete against each other in a zero-sum competition that
itself evolves adversarially to the current population mixture. Remarkably,
despite the chaotic coevolution of agents and games, we prove that the system
exhibits a number of regularities. First, the system has conservation laws of
an information-theoretic flavor that couple the behavior of all agents and
games. Secondly, the system is Poincar\'{e} recurrent, with effectively all
possible initializations of agents and games lying on recurrent orbits that
come arbitrarily close to their initial conditions infinitely often. Thirdly,
the time-average agent behavior and utility converge to the Nash equilibrium
values of the time-average game. Finally, we provide a polynomial time
algorithm to efficiently predict this time-average behavior for any such
coevolving network game.
- Abstract(参考訳): 進化的ゲーム理論とより一般的にオンライン学習における主要なパラダイムは、固定された静的なゲームと相互作用する動的エージェントの集団間の明確な区別に基づいている。
本稿では,動的エージェントと静的ゲームとの人工的な分断から離れて,エージェントとゲームの両方が時間とともに戦略的に進化する,大規模な競争的設定を紹介し分析する。
我々は、おそらく最も典型的なゲーム理論的な設定であるゼロサムゲーム(およびネットワークの一般化)と最も研究されている進化的学習ダイナミックなレプリケータに焦点を当てています。
エージェントの集団は、現在の人口混合に逆らって進化するゼロサム競争で互いに競合する。
驚くべきことに、エージェントとゲームのカオス的な共進化にもかかわらず、システムは多くの正規性を示すことを証明している。
まず、システムはすべてのエージェントとゲームの振る舞いを結合する情報理論的なフレーバーの保存則を有する。
第二に、システムはpoincar\'{e}リカレントであり、エージェントとゲームの全ての初期化は、無限に頻繁に初期状態に近いリカレント軌道上にある。
第3に、時間平均エージェントの挙動とユーティリティは、時間平均ゲームのナッシュ平衡値に収束する。
最後に,このようなネットワークゲームに対して,この時間平均動作を効率的に予測する多項式時間アルゴリズムを提案する。
関連論文リスト
- Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z) - No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium [76.78447814623665]
正規形式ゲームにおいて、相関平衡に収束する最初の非共役な非共役ダイナミクスを与える。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
提案アルゴリズムは,各決定点における局所的なサブプロブレムにトリガを分解し,局所解からプレイヤーのグローバルな戦略を構築する。
論文 参考訳(メタデータ) (2020-04-01T17:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。