論文の概要: A Slingshot Approach to Learning in Monotone Games
- arxiv url: http://arxiv.org/abs/2305.16610v1
- Date: Fri, 26 May 2023 04:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:10:49.493424
- Title: A Slingshot Approach to Learning in Monotone Games
- Title(参考訳): 単調ゲームにおける学習へのslingshotアプローチ
- Authors: Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki
- Abstract要約: ノイズの存在下でも収束が持続する新しい枠組みを提案する。
この枠組みに基づくアルゴリズムは, より高速な収束を実証的に示す。
- 参考スコア(独自算出の注目度): 8.780339295067096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the problem of computing equilibria in monotone
games. The traditional Follow the Regularized Leader algorithms fail to
converge to an equilibrium even in two-player zero-sum games. Although
optimistic versions of these algorithms have been proposed with last-iterate
convergence guarantees, they require noiseless gradient feedback. To overcome
this limitation, we present a novel framework that achieves last-iterate
convergence even in the presence of noise. Our key idea involves perturbing or
regularizing the payoffs or utilities of the games. This perturbation serves to
pull the current strategy to an anchored strategy, which we refer to as a {\it
slingshot} strategy. First, we establish the convergence rates of our framework
to a stationary point near an equilibrium, regardless of the presence or
absence of noise. Next, we introduce an approach to periodically update the
slingshot strategy with the current strategy. We interpret this approach as a
proximal point method and demonstrate its last-iterate convergence. Our
framework is comprehensive, incorporating existing payoff-regularized
algorithms and enabling the development of new algorithms with last-iterate
convergence properties. Finally, we show that our algorithms, based on this
framework, empirically exhibit faster convergence.
- Abstract(参考訳): 本稿では,モノトーンゲームにおける平衡計算の問題に対処する。
従来のFollow the Regularized Leaderアルゴリズムは、2プレイヤーゼロサムゲームでも平衡に収束しない。
これらのアルゴリズムの楽観的なバージョンは、最終的な収束を保証するために提案されているが、ノイズレス勾配フィードバックが必要である。
この限界を克服するために,ノイズの存在下でもラストイテレート収束を実現する新しい枠組みを提案する。
私たちのキーとなるアイデアは、ゲームの支払いやユーティリティの摂動や規則化です。
この摂動は、現在の戦略を固定された戦略に引き込むのに役立ち、我々はそれを {\it slingshot} 戦略と呼ぶ。
まず, 雑音の有無に関わらず, 平衡近傍の定常点への枠組みの収束率を定式化する。
次に,現在の戦略でslingshot戦略を定期的に更新する手法を提案する。
我々は,このアプローチを近点法として解釈し,そのラストイテレート収束を示す。
我々のフレームワークは包括的であり、既存のペイオフ正規化アルゴリズムを取り入れ、ラストイテレート収束特性を持つ新しいアルゴリズムの開発を可能にしている。
最後に,この枠組みに基づくアルゴリズムは,より高速な収束を示すことを示す。
関連論文リスト
- Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Local and adaptive mirror descents in extensive-form games [37.04094644847904]
我々は,ゼロサム不完全な情報ゲーム (IIG) において,軌道フィードバックを用いて$epsilon$-Optimal戦略を学習する方法を研究する。
我々は、プレイヤーが時間とともにポリシーを更新する固定サンプリングアプローチを検討するが、与えられた固定サンプリングポリシーによって観察される。
このアプローチは高い確率で$tildemathcalO(T-1/2)$の収束率を保証し、ゲームパラメータにほぼ最適に依存することを示す。
論文 参考訳(メタデータ) (2023-09-01T09:20:49Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Robust Imitation via Mirror Descent Inverse Reinforcement Learning [18.941048578572577]
本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-20T12:25:21Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Alternating Mirror Descent for Constrained Min-Max Games [44.46086335474311]
制約付き戦略空間を持つ2プレイヤー双線形ゼロサムゲームについて検討する。
我々は,各プレイヤーが交互に行動する交互ミラー降下アルゴリズムを,制約付き最適化のためのミラー降下アルゴリズムに従って解析する。
論文 参考訳(メタデータ) (2022-06-08T20:48:16Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。