論文の概要: Adaptively Perturbed Mirror Descent for Learning in Games
- arxiv url: http://arxiv.org/abs/2305.16610v5
- Date: Mon, 24 Jun 2024 14:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 05:18:24.612662
- Title: Adaptively Perturbed Mirror Descent for Learning in Games
- Title(参考訳): ゲームにおける学習のための適応的摂動ミラーダイス
- Authors: Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki,
- Abstract要約: 本稿では,ペイオフ関数の勾配が単調なゲームにおいて,ミラーDescent(MD)アルゴリズムに対するペイオフ摂動手法を提案する。
その結果,アルゴリズムの収束が著しく加速していることが判明した。
- 参考スコア(独自算出の注目度): 10.868347525353293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a payoff perturbation technique for the Mirror Descent (MD) algorithm in games where the gradient of the payoff functions is monotone in the strategy profile space, potentially containing additive noise. The optimistic family of learning algorithms, exemplified by optimistic MD, successfully achieves {\it last-iterate} convergence in scenarios devoid of noise, leading the dynamics to a Nash equilibrium. A recent re-emerging trend underscores the promise of the perturbation approach, where payoff functions are perturbed based on the distance from an anchoring, or {\it slingshot}, strategy. In response, we propose {\it Adaptively Perturbed MD} (APMD), which adjusts the magnitude of the perturbation by repeatedly updating the slingshot strategy at a predefined interval. This innovation empowers us to find a Nash equilibrium of the underlying game with guaranteed rates. Empirical demonstrations affirm that our algorithm exhibits significantly accelerated convergence.
- Abstract(参考訳): 本稿では,ゲームにおけるミラー・ディフレクション(MD)アルゴリズムに対するペイオフ摂動手法を提案する。
楽観的なMDによって実証された楽観的な学習アルゴリズムの族は、雑音のないシナリオにおける最終段階の収束を成功させ、力学をナッシュ均衡へと導く。
最近の再帰的傾向は、アンカーからの距離、すなわち {\it slingshot} の戦略に基づいて、ペイオフ関数が摂動される、摂動アプローチの可能性を浮き彫りにしている。
そこで本研究では,スリングショット戦略を予め定義された間隔で繰り返し更新することにより,摂動の大きさを調整できる適応的摂動MD(APMD)を提案する。
このイノベーションによって、保証されたレートで、基礎となるゲームのナッシュ均衡を見つけることができます。
実証実験により, アルゴリズムの収束が著しく加速していることが確認された。
関連論文リスト
- Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Local and adaptive mirror descents in extensive-form games [37.04094644847904]
我々は,ゼロサム不完全な情報ゲーム (IIG) において,軌道フィードバックを用いて$epsilon$-Optimal戦略を学習する方法を研究する。
我々は、プレイヤーが時間とともにポリシーを更新する固定サンプリングアプローチを検討するが、与えられた固定サンプリングポリシーによって観察される。
このアプローチは高い確率で$tildemathcalO(T-1/2)$の収束率を保証し、ゲームパラメータにほぼ最適に依存することを示す。
論文 参考訳(メタデータ) (2023-09-01T09:20:49Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Robust Imitation via Mirror Descent Inverse Reinforcement Learning [18.941048578572577]
本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-20T12:25:21Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Alternating Mirror Descent for Constrained Min-Max Games [44.46086335474311]
制約付き戦略空間を持つ2プレイヤー双線形ゼロサムゲームについて検討する。
我々は,各プレイヤーが交互に行動する交互ミラー降下アルゴリズムを,制約付き最適化のためのミラー降下アルゴリズムに従って解析する。
論文 参考訳(メタデータ) (2022-06-08T20:48:16Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。