論文の概要: Gradient play in stochastic games: stationary points, convergence, and
sample complexity
- arxiv url: http://arxiv.org/abs/2106.00198v5
- Date: Wed, 6 Dec 2023 21:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 21:35:44.452882
- Title: Gradient play in stochastic games: stationary points, convergence, and
sample complexity
- Title(参考訳): 確率ゲームにおける勾配遊び:定常点、収束、サンプル複雑性
- Authors: Runyu Zhang, Zhaolin Ren, Na Li
- Abstract要約: ゲーム用グラデーションプレイアルゴリズム(SG)の性能について検討する。
この設定では、ナッシュ均衡(NE)と1次定常ポリシーが等価であることを示す。
マルコフポテンシャルゲームと呼ばれるSGのサブクラスに対して、サンプルベース強化学習アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 6.97785632069611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the performance of the gradient play algorithm for stochastic games
(SGs), where each agent tries to maximize its own total discounted reward by
making decisions independently based on current state information which is
shared between agents. Policies are directly parameterized by the probability
of choosing a certain action at a given state. We show that Nash equilibria
(NEs) and first-order stationary policies are equivalent in this setting, and
give a local convergence rate around strict NEs. Further, for a subclass of SGs
called Markov potential games (which includes the setting with identical
rewards as an important special case), we design a sample-based reinforcement
learning algorithm and give a non-asymptotic global convergence rate analysis
for both exact gradient play and our sample-based learning algorithm. Our
result shows that the number of iterations to reach an $\epsilon$-NE scales
linearly, instead of exponentially, with the number of agents. Local geometry
and local stability are also considered, where we prove that strict NEs are
local maxima of the total potential function and fully-mixed NEs are saddle
points.
- Abstract(参考訳): エージェント間で共有される現在の状態情報に基づいて,各エージェントが独立して決定を行うことで,各エージェントが自己の割引報酬を最大化しようとする確率ゲーム(SG)の勾配プレイアルゴリズムの性能について検討する。
ポリシーは、ある状態において特定のアクションを選択する確率によって直接パラメータ化される。
nash平衡(nes)と1次定常ポリシーはこの設定において等価であり、厳格なnes周辺の局所収束率を与える。
さらに,マルコフポテンシャルゲームと呼ばれるSGのサブクラスに対して,サンプルベース強化学習アルゴリズムを設計し,正確な勾配プレイとサンプルベース学習アルゴリズムの両方に対して,漸近的でないグローバル収束率解析を行う。
その結果,エージェント数で指数関数的にではなく,$\epsilon$-neに達するイテレーションの数は線形にスケールすることがわかった。
局所幾何と局所安定性も考慮され、厳密な nes は全ポテンシャル関数の局所極大であり、完全混合 nes は鞍点であることが証明される。
関連論文リスト
- PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Independent Policy Gradient for Large-Scale Markov Potential Games:
Sharper Rates, Function Approximation, and Game-Agnostic Convergence [30.084357461497042]
状態空間と/またはプレイヤーの数が非常に大きいMPGのナッシュ均衡を学習する。
我々は,すべてのプレイヤーがタンデムで実行する独立ポリシー勾配アルゴリズムを提案する。
我々は、ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束性を楽しむ独立ポリシー勾配アルゴリズムのクラスを、ゲームの種類によらないプレイヤーと同定する。
論文 参考訳(メタデータ) (2022-02-08T20:09:47Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games [3.441021278275805]
ゲームにおける学習は、多エージェント強化学習(MARL)における最も標準的で基本的な設定であることは間違いない。
汎用近似ゲーム(SG)の重要なクラスにおいて、完全分散Q-ラーニングアルゴリズムの有限サンプル複雑性を確立する。
我々は,各エージェントが報酬や他のエージェントの行動を観察できないような,完全に分散化されたMARLの実践的かつ挑戦的な設定に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-15T03:33:39Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - A Stochastic Newton Algorithm for Distributed Convex Optimization [62.20732134991661]
均質な分散凸最適化のためのNewtonアルゴリズムを解析し、各マシンが同じ人口目標の勾配を計算する。
提案手法は,既存の手法と比較して,性能を損なうことなく,必要な通信ラウンドの数,頻度を低減できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:51:10Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Computational Performance of Deep Reinforcement Learning to find Nash
Equilibria [0.0]
我々は深層強化学習アルゴリズムを用いて、企業が価格で競う環境でnash平衡を学習する。
モデルフリーであるにもかかわらず、アルゴリズムの様々なステップで大量のパラメータが利用される。
最大99%の収束率に達することができるパラメータの選択を見つけます。
論文 参考訳(メタデータ) (2021-04-26T22:14:17Z) - Stochastic optimization with momentum: convergence, fluctuations, and
traps avoidance [0.0]
本稿では,重球法,ネステロフ加速勾配法(S-NAG),広く使用されているアダム法など,勾配勾配勾配のいくつかの変種を統一する一般最適化手法について検討する。
この回避は、非自明な常微分方程式のノイズ離散化として研究される。
論文 参考訳(メタデータ) (2020-12-07T19:14:49Z) - Sinkhorn Natural Gradient for Generative Models [125.89871274202439]
本研究では,シンクホーンの発散による確率空間上の最も急降下法として機能するシンクホーン自然勾配(SiNG)アルゴリズムを提案する。
本稿では,SiNG の主要成分であるシンクホーン情報行列 (SIM) が明示的な表現を持ち,対数的スケールの複雑さを正確に評価できることを示す。
本実験では,SiNGと最先端のSGD型解法を定量的に比較し,その有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-11-09T02:51:17Z) - Multi-Agent Reinforcement Learning in Stochastic Networked Systems [30.78949372661673]
エージェントネットワークにおけるマルチエージェント強化学習(MARL)について検討する。
目的は、世界的報酬を最大化する局所的な政策を見つけることである。
論文 参考訳(メタデータ) (2020-06-11T16:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。