Fugu-MT 論文翻訳(概要): Regularized Gradient Descent Ascent for Two-Player Zero-Sum Markov Games

論文の概要: Regularized Gradient Descent Ascent for Two-Player Zero-Sum Markov Games

arxiv url: http://arxiv.org/abs/2205.13746v1
Date: Fri, 27 May 2022 03:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-30 15:25:42.599099
Title: Regularized Gradient Descent Ascent for Two-Player Zero-Sum Markov Games
Title（参考訳）: 2プレーヤゼロサムマルコフゲームのための正規化グラディエントDescent Ascent
Authors: Sihan Zeng, Thinh T. Doan, Justin Romberg
Abstract要約: 本研究では,2プレーヤゼロサムゲームにおけるナッシュ平衡を求める問題について検討する。我々の主な貢献は、正規化パラメータの適切な選択の下で、勾配が元の非正規化問題のナッシュ平衡に傾くことを示すことである。
参考スコア（独自算出の注目度）: 16.09467599829253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of finding the Nash equilibrium in a two-player zero-sum Markov game. Due to its formulation as a minimax optimization program, a natural approach to solve the problem is to perform gradient descent/ascent with respect to each player in an alternating fashion. However, due to the non-convexity/non-concavity of the underlying objective function, theoretical understandings of this method are limited. In our paper, we consider solving an entropy-regularized variant of the Markov game. The regularization introduces structure into the optimization landscape that make the solutions more identifiable and allow the problem to be solved more efficiently. Our main contribution is to show that under proper choices of the regularization parameter, the gradient descent ascent algorithm converges to the Nash equilibrium of the original unregularized problem. We explicitly characterize the finite-time performance of the last iterate of our algorithm, which vastly improves over the existing convergence bound of the gradient descent ascent algorithm without regularization. Finally, we complement the analysis with numerical simulations that illustrate the accelerated convergence of the algorithm.
Abstract（参考訳）: 2人プレイのゼロサムマルコフゲームにおいてナッシュ平衡を求める問題について検討する。ミニマックス最適化プログラムとして定式化されているため、この問題を解決するための自然なアプローチは、各プレイヤーに対する勾配降下/上昇を交互に行うことである。しかし、対象関数の非凸性/非凸性のため、この方法の理論的理解は限られている。本稿では,マルコフゲームにおけるエントロピー規則化された変種を解くことを検討する。正規化は最適化のランドスケープに構造を導入し、ソリューションをより識別しやすくし、問題をより効率的に解決できるようにする。我々の主な貢献は、正規化パラメータの適切な選択の下で、勾配降下上昇アルゴリズムが元の非正規化問題のナッシュ平衡に収束することを示すことである。正規化を伴わない勾配降下上昇アルゴリズムの既存の収束境界を大幅に改善するアルゴリズムの最後の繰り返しの有限時間性能を明示的に特徴付ける。最後に,アルゴリズムの収束の加速を示す数値シミュレーションを用いて解析を補完する。

関連論文リスト

Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文参考訳（メタデータ） (2024-06-28T02:56:22Z)
Efficient Low-rank Identification via Accelerated Iteratively Reweighted Nuclear Norm Minimization [8.879403568685499]
パラメータの平滑化に適応的な更新戦略を導入する。この振る舞いは、アルゴリズムを数回繰り返した後に、効果的に問題を解決するものに変えます。すべてのイテレーションが重要なものであることを保証し、グローバルに提案された実験を証明します。
論文参考訳（メタデータ） (2024-06-22T02:37:13Z)
Strictly Low Rank Constraint Optimization -- An Asymptotically $\mathcal{O}(\frac{1}{t^2})$ Method [5.770309971945476]
最適解における空間性を促進するために,テキスト規則化を用いた非テキスト・非滑らかな問題のクラスを提案する。我々のアルゴリズムは、滑らかな凸問題に対する一階法に対するネステロフの最適収束と全く同じ$Ofrac(t2)$の特異収束を達成することができることを示す。
論文参考訳（メタデータ） (2023-07-04T16:55:41Z)
PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文参考訳（メタデータ） (2023-03-02T05:08:15Z)
First-Order Algorithms for Nonlinear Generalized Nash Equilibrium Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文参考訳（メタデータ） (2022-04-07T00:11:05Z)
Fast Policy Extragradient Methods for Competitive Games with Entropy Regularization [40.21627891283402]
本稿では,競争ゲームの均衡の計算問題について考察する。エントロピー正則化のアルゴリズム的役割に動機付けられ、我々は証明可能な効率の良い指数関数法を開発した。
論文参考訳（メタデータ） (2021-05-31T17:51:15Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Provably Convergent Working Set Algorithm for Non-Convex Regularized Regression [0.0]
本稿では、収束保証付き非正則正規化器のためのワーキングセットアルゴリズムを提案する。その結果,ブロックコーディネートや勾配ソルバの完全解法と比較して高い利得を示した。
論文参考訳（メタデータ） (2020-06-24T07:40:31Z)
Convergence of adaptive algorithms for weakly convex constrained optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文参考訳（メタデータ） (2020-06-11T17:43:19Z)
Explicit Regularization of Stochastic Gradient Methods through Duality [9.131027490864938]
ランダム化された双対座標の上昇に基づくランダム化されたDykstraスタイルのアルゴリズムを提案する。座標降下を高速化するために、補間系における既存の勾配法よりも収束特性がよい新しいアルゴリズムを得る。
論文参考訳（メタデータ） (2020-03-30T20:44:56Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。