論文の概要: Learning in nonatomic games, Part I: Finite action spaces and population
games
- arxiv url: http://arxiv.org/abs/2107.01595v1
- Date: Sun, 4 Jul 2021 11:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:40:27.855208
- Title: Learning in nonatomic games, Part I: Finite action spaces and population
games
- Title(参考訳): 非原子ゲームにおける学習 : 第1報 有限アクション空間と集団ゲーム
- Authors: Saeed Hadikhanloo and Rida Laraki and Panayotis Mertikopoulos and
Sylvain Sorin
- Abstract要約: 非原子ゲームにおいて、離散時間と連続時間の両方で学習するための幅広いダイナミクスの長期的挙動について検討する。
有限作用空間を持つゲームにのみ焦点をあて、連続作用空間を持つ非原子ゲームは、この論文のパートIIで詳細に扱われる。
- 参考スコア(独自算出の注目度): 22.812059396480656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine the long-run behavior of a wide range of dynamics for learning in
nonatomic games, in both discrete and continuous time. The class of dynamics
under consideration includes fictitious play and its regularized variants, the
best-reply dynamics (again, possibly regularized), as well as the dynamics of
dual averaging / "follow the regularized leader" (which themselves include as
special cases the replicator dynamics and Friedman's projection dynamics). Our
analysis concerns both the actual trajectory of play and its time-average, and
we cover potential and monotone games, as well as games with an evolutionarily
stable state (global or otherwise). We focus exclusively on games with finite
action spaces; nonatomic games with continuous action spaces are treated in
detail in Part II of this paper.
- Abstract(参考訳): 非原子ゲームにおいて、離散時間と連続時間の両方で学習するための幅広いダイナミクスの長期的挙動について検討する。
考慮中のダイナミクスのクラスには、架空の遊びとその正規化変種、最高のレプライズ・ダイナミクス(おそらくは正規化)、二重平均化/「正規化リーダーの追従」のダイナミクス(それ自体はレプリケータ・ダイナミクスとフリードマンの射影力学を含む)が含まれる。
我々の分析では、実際の遊びの軌跡と平均時間の両方を考慮し、ポテンシャルゲームと単調ゲーム、および進化的に安定な状態(グローバルかそれ以上)を持つゲームをカバーする。
有限作用空間を持つゲームにのみ焦点をあて、連続作用空間を持つ非原子ゲームは、この論文のパートIIで詳細に扱われる。
関連論文リスト
- Logit-Q Dynamics for Efficient Learning in Stochastic Teams [1.3927943269211591]
ゲームにおける効率的な学習のための新しいロジット-Qダイナミクスのファミリーを提示する。
未知のダイナミックスを持つチームでは,ロジット-Qのダイナミクスが(ほぼ)効率のよい平衡に到達できることが示される。
論文 参考訳(メタデータ) (2023-02-20T07:07:25Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Online Learning in Periodic Zero-Sum Games [27.510231246176033]
これらの力学系の複雑で非自律的な性質にもかかわらず、ポアンカーの再発は確実に一般化することを示す。
論文 参考訳(メタデータ) (2021-11-05T10:36:16Z) - From Motor Control to Team Play in Simulated Humanoid Football [56.86144022071756]
我々は、現実的な仮想環境でサッカーをするために、物理的にシミュレートされたヒューマノイドアバターのチームを訓練する。
一連の段階において、プレイヤーはまず、現実的な人間のような動きを実行するために、完全に関節化された身体を制御することを学習する。
その後、ドリブルやシューティングといった中級のサッカーのスキルを身につける。
最後に、彼らは他の人を意識し、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋める。
論文 参考訳(メタデータ) (2021-05-25T20:17:10Z) - Simple Uncoupled No-Regret Learning Dynamics for Extensive-Form
Correlated Equilibrium [65.64512759706271]
正常形式ゲームにおける相関平衡と収束する単純非結合非残余力学の存在について研究する。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
我々は,反復数において後悔をトリガーする確率が高い確率で保証する効率的なno-regretアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-04T02:26:26Z) - Follow-the-Regularized-Leader Routes to Chaos in Routing Games [23.497377573947382]
ゲームにおけるフォロー・ザ・レギュラライズ・リーダー(FoReL)ダイナミクスのカオス行動の出現について検討する。
安定なナッシュ平衡の共存や同じゲームにおけるカオスなど、新しい非標準現象の存在を示す。
FoReLダイナミクスは奇妙で非平衡ですが、我々は時間平均が学習率の選択とコストのあらゆるスケールのために正確な平衡にまだ収束していることを証明します。
論文 参考訳(メタデータ) (2021-02-16T06:40:31Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z) - No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium [76.78447814623665]
正規形式ゲームにおいて、相関平衡に収束する最初の非共役な非共役ダイナミクスを与える。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
提案アルゴリズムは,各決定点における局所的なサブプロブレムにトリガを分解し,局所解からプレイヤーのグローバルな戦略を構築する。
論文 参考訳(メタデータ) (2020-04-01T17:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。