論文の概要: $O(T^{-1})$ Convergence of Optimistic-Follow-the-Regularized-Leader in
Two-Player Zero-Sum Markov Games
- arxiv url: http://arxiv.org/abs/2209.12430v1
- Date: Mon, 26 Sep 2022 05:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:00:39.700470
- Title: $O(T^{-1})$ Convergence of Optimistic-Follow-the-Regularized-Leader in
Two-Player Zero-Sum Markov Games
- Title(参考訳): 2人のゼロサムマルコフゲームにおける楽観的フォロー・ザ・レギュラライズド・リーダーの$o(t^{-1})$収束
- Authors: Yuepeng Yang, Cong Ma
- Abstract要約: O(T-1)$-approximate Nash equilibrium in $T$ for two-player zero-sum Markov games with full information。
これにより、Zhang et al (2022)に最近示されている$tildeO(T-5/6)$収束率が向上する。
- 参考スコア(独自算出の注目度): 10.915751393257011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We prove that optimistic-follow-the-regularized-leader (OFTRL), together with
smooth value updates, finds an $O(T^{-1})$-approximate Nash equilibrium in $T$
iterations for two-player zero-sum Markov games with full information. This
improves the $\tilde{O}(T^{-5/6})$ convergence rate recently shown in the paper
Zhang et al (2022). The refined analysis hinges on two essential ingredients.
First, the sum of the regrets of the two players, though not necessarily
non-negative as in normal-form games, is approximately non-negative in Markov
games. This property allows us to bound the second-order path lengths of the
learning dynamics. Second, we prove a tighter algebraic inequality regarding
the weights deployed by OFTRL that shaves an extra $\log T$ factor. This
crucial improvement enables the inductive analysis that leads to the final
$O(T^{-1})$ rate.
- Abstract(参考訳): 楽観的フォロー・ザ・レギュラライズド・リーダー(OFTRL)がスムーズな値更新とともに、フル情報を持つ2プレイヤーゼロサムマルコフゲームに対して、$O(T^{-1})$-approximate Nash平衡が$T$反復で得られることを証明した。
これにより、zhang et al (2022) で最近示された $\tilde{o}(t^{-5/6})$ 収束率が向上する。
精巧な分析は2つの必須成分にかかっている。
第一に、2人のプレイヤーの後悔の総和は、通常の形式ゲームのように必ずしも非負ではないが、マルコフゲームではほぼ非負である。
この特性により、学習ダイナミクスの2次経路の長さを制限できる。
第二に、追加の$\log T$ factorを剃るOFTRLによって展開される重みに関するより厳密な代数的不等式を証明する。
この重要な改善により、最終的な$O(T^{-1})$レートにつながる帰納的解析が可能になる。
関連論文リスト
- Games played by Exponential Weights Algorithms [0.0]
各プレイヤーは、初期混合動作と固定学習率を特徴とする指数重み付けアルゴリズムを使用する。
厳密なナッシュ均衡が存在するときは常に、次の段階で厳密なナッシュ均衡を行う確率は、ほぼ確実に0または1に収束することを示す。
論文 参考訳(メタデータ) (2024-07-09T08:49:51Z) - Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms [71.73971094342349]
オンライン学習によるセルフプレイは、大規模な2人プレイのゼロサムゲームを解くための重要な方法の1つだ。
我々は,OMWUが支払行列のサイズに対数依存するなど,いくつかの利点があることを示した。
我々は、過去のことをすぐに忘れない幅広い種類のアルゴリズムが、すべて同じ問題に悩まされていることを証明している。
論文 参考訳(メタデータ) (2024-06-15T13:26:17Z) - $\widetilde{O}(T^{-1})$ Convergence to (Coarse) Correlated Equilibria in Full-Information General-Sum Markov Games [8.215874655947335]
楽観的フォロー・ザ・レギュラライズド・リーダー・アルゴリズムは,フル情報汎用マルコフゲームにおいて,$widetildeO(T-1)$-approximate iterationsを$T$内で見つけることができることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:40:27Z) - Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games
with Bandit Feedback [49.1061436241109]
非漸近収束率の非結合、収束、合理的なアルゴリズムの開発に注力する。
我々のアルゴリズムは[Chen et al., 2021, Cen et al., 2021]と関係があり、エントロピー正規化技術に基づいている。
論文 参考訳(メタデータ) (2023-03-05T18:08:54Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Model-Based Reinforcement Learning for Offline Zero-Sum Markov Games [18.832436856339587]
本稿では,オフラインデータから2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡の学習に向けて前進する。
ベルンシュタイン型低信頼境界を持つ悲観的モデルベースアルゴリズム(VI-LCB-Game)を提案する。
論文 参考訳(メタデータ) (2022-06-08T17:58:06Z) - Near-Optimal Learning of Extensive-Form Games with Imperfect Information [54.55092907312749]
本稿では,2プレイヤーゼロサムゲームにおいて,$widetildemathcalO((XA+YB)/varepsilon2)$プレイのエピソードのみを必要とするアルゴリズムの最初の行を,$varepsilon$-approximate Nash平衡を求める。
これにより$widetildemathcalO((X2A+Y2B)/varepsilon2)$が$widetildemathcalO(maxX,
論文 参考訳(メタデータ) (2022-02-03T18:18:28Z) - Almost Optimal Algorithms for Two-player Markov Games with Linear
Function Approximation [92.99933928528797]
同時動作による2プレイヤーゼロサムマルコフゲームの強化学習について検討した。
我々は,「不確かさの最適性」に基づくアルゴリズムナッシュ-UCRL-VTRを提案する。
我々は、Nash-UCRL-VTR が $tildeO(dHsqrtT)$ regret を確実に達成できることを示し、$d$ は線型関数次元である。
論文 参考訳(メタデータ) (2021-02-15T09:09:16Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。