論文の概要: Mutation-Driven Follow the Regularized Leader for Last-Iterate
Convergence in Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2206.09254v1
- Date: Sat, 18 Jun 2022 17:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 02:53:09.260970
- Title: Mutation-Driven Follow the Regularized Leader for Last-Iterate
Convergence in Zero-Sum Games
- Title(参考訳): ゼロサムゲームにおけるラストイテレート収束のための正規化リーダの追従
- Authors: Kenshi Abe, Mitsuki Sakamoto, Atsushi Iwasaki
- Abstract要約: 正規化リーダ(FTRL)のフォローは、戦略を時分割する際にナッシュ均衡に収束することが保証される。
FTRL(M-FTRL)は,行動確率の摂動に対する突然変異を導入するアルゴリズムである。
- 参考スコア(独自算出の注目度): 8.347058637480506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we consider a variant of the Follow the Regularized Leader
(FTRL) dynamics in two-player zero-sum games. FTRL is guaranteed to converge to
a Nash equilibrium when time-averaging the strategies, while a lot of variants
suffer from the issue of limit cycling behavior, i.e., lack the last-iterate
convergence guarantee. To this end, we propose mutant FTRL (M-FTRL), an
algorithm that introduces mutation for the perturbation of action
probabilities. We then investigate the continuous-time dynamics of M-FTRL and
provide the strong convergence guarantees toward stationary points that
approximate Nash equilibria under full-information feedback. Furthermore, our
simulation demonstrates that M-FTRL can enjoy faster convergence rates than
FTRL and optimistic FTRL under full-information feedback and surprisingly
exhibits clear convergence under bandit feedback.
- Abstract(参考訳): 本研究では,2プレイヤーゼロサムゲームにおけるFTRL(Follow the Regularized Leader)の変動について考察する。
FTRLは戦略を時分割するときにナッシュ均衡に収束することが保証され、多くの変種はサイクルの制限という問題に悩まされる。
そこで本研究では,行動確率の摂動に変異を導入するアルゴリズムであるミュータントftrl(m-ftrl)を提案する。
次に,m-ftrlの連続時間ダイナミクスを調査し,全情報フィードバック下でnash平衡を近似する定常点に対して強い収束保証を与える。
さらに,本シミュレーションでは,FTRLよりもFTRLや楽観的なFTRLよりも高速に収束できることを示す。
関連論文リスト
- Continual SFT Matches Multimodal RLHF with Negative Supervision [32.784161582943874]
マルチモーダルRLHFは通常、視覚言語モデル(VLM)の理解を継続的に改善するために、教師付き微調整(SFT)段階の後に起こる。
従来の知恵は、この選好アライメント段階における連続SFTよりも優越性を持っている。
本稿では,これらの情報を完全に発掘する新しい否定教師あり微調整(nSFT)手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T08:48:30Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Generalized Implicit Follow-The-Regularized-Leader [15.974402990630402]
一般化された暗黙的なFTRLは、線形化された損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができる。
フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。
論文 参考訳(メタデータ) (2023-05-31T21:39:52Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for
Last-Iterate Convergence in Constrained MDPs [31.663072540757643]
強化学習(Reinforcement Learning, RL)は, 実世界の課題に応用され, 成功を収めている。
Reinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を紹介する。
論文 参考訳(メタデータ) (2023-02-02T18:05:27Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T18:45:48Z) - Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic
Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。
我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。
本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-09T15:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。