論文の概要: Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum
Markov Games
- arxiv url: http://arxiv.org/abs/2102.08903v1
- Date: Wed, 17 Feb 2021 17:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-02-19 06:54:50.982676
- Title: Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum
Markov Games
- Title(参考訳): 2人プレイのゼロサムマルコフゲームにおける効率的なポリシーグラデーション手法
- Authors: Yulai Zhao, Yuandong Tian, Jason D. Lee, Simon S. Du
- Abstract要約: 本論文では,自然政策グラディエントアルゴリズムの自然拡張について検討する。
我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。
- 参考スコア(独自算出の注目度): 95.70078702838654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods are widely used in solving two-player zero-sum games
to achieve superhuman performance in practice. However, it remains elusive when
they can provably find a near-optimal solution and how many samples and
iterations are needed. The current paper studies natural extensions of Natural
Policy Gradient algorithm for solving two-player zero-sum games where function
approximation is used for generalization across states. We thoroughly
characterize the algorithms' performance in terms of the number of samples,
number of iterations, concentrability coefficients, and approximation error. To
our knowledge, this is the first quantitative analysis of policy gradient
methods with function approximation for two-player zero-sum Markov games.
- Abstract(参考訳): ポリシーグラデーション法は、実際には超人的なパフォーマンスを達成するために2プレイヤーゼロサムゲームの解決に広く使用されています。
しかし、ほぼ最適のソリューションと、必要なサンプルとイテレーションの数を明らかに見つけることができるとき、それはわかりにくいままです。
本論文では,関数近似を状態全体の一般化に用いる2プレイヤーゼロサムゲームを解くための自然政策グラディエントアルゴリズムの自然拡張について研究する。
我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。
我々の知る限り、これは2プレイヤゼロサムマルコフゲームに対する関数近似を用いたポリシー勾配法の最初の定量的解析である。
関連論文リスト
- Breaking the Curse of Multiagency: Provably Efficient Decentralized
Multi-Agent RL with Function Approximation [44.051717720483595]
本稿では,マルチ緊急近似の呪いを確実に解決するMARLアルゴリズムの1行について述べる。
より弱いバージョンのCCEを学習する代わりに、このアルゴリズムは一般的な関数近似の下で幅広い問題に適用される。
我々のアルゴリズムは常にMarkov CCEを出力し、最適レートは$widetildemathcalO(epsilon-2)$で$epsilon$-optimal Solutionを見つける。
論文 参考訳(メタデータ) (2023-02-13T18:59:25Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - HSVI can solve zero-sum Partially Observable Stochastic Games [7.293053431456775]
2-player 0-sum不完全なゲームを解くための最先端の手法は、線形プログラミングや動的後悔の最小化に依存している。
本稿では,線形プログラミングや反復的手法に依存した手法を補完する,有望なアプローチの新たなファミリーを提案する。
論文 参考訳(メタデータ) (2022-10-26T11:41:57Z) - Reinforcement Learning with Unbiased Policy Evaluation and Linear
Function Approximation [11.345796608258434]
マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。
第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。
第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
論文 参考訳(メタデータ) (2022-10-13T20:16:19Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - Policy Optimization for Linear-Quadratic Zero-Sum Mean-Field Type Games [1.1852406625172216]
線形力学と二次効用を持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。
政策勾配に依存する2つの政策最適化手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T13:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。