論文の概要: Independent Policy Gradient Methods for Competitive Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2101.04233v1
- Date: Mon, 11 Jan 2021 23:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 14:34:14.187303
- Title: Independent Policy Gradient Methods for Competitive Reinforcement
Learning
- Title(参考訳): 競争強化学習のための独立政策勾配法
- Authors: Constantinos Daskalakis, Dylan J. Foster, Noah Golowich
- Abstract要約: 2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
- 参考スコア(独自算出の注目度): 62.91197073795261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We obtain global, non-asymptotic convergence guarantees for independent
learning algorithms in competitive reinforcement learning settings with two
agents (i.e., zero-sum stochastic games). We consider an episodic setting where
in each episode, each player independently selects a policy and observes only
their own actions and rewards, along with the state. We show that if both
players run policy gradient methods in tandem, their policies will converge to
a min-max equilibrium of the game, as long as their learning rates follow a
two-timescale rule (which is necessary). To the best of our knowledge, this
constitutes the first finite-sample convergence result for independent policy
gradient methods in competitive RL; prior work has largely focused on
centralized, coordinated procedures for equilibrium computation.
- Abstract(参考訳): 我々は、2つのエージェント(ゼロサム確率ゲーム)と競合する強化学習設定において、独立学習アルゴリズムのグローバルな非漸近収束保証を得る。
各エピソードにおいて、各プレイヤーが独立して方針を選択し、自身の行動と報酬のみを国家とともに観察するエピソディックな設定を考える。
両プレイヤーがタンデムでポリシー勾配法を実行すると、学習率が2段階のルールに従う限り、それらのポリシーはゲームのミニマックス均衡に収束する(これは必要である)。
我々の知る限りでは、これは競争的RLにおける独立政策勾配法に対する最初の有限サンプル収束結果である。
関連論文リスト
- A Policy-Gradient Approach to Solving Imperfect-Information Games with Iterate Convergence [21.195897792629548]
政策勾配法は, シングルエージェント強化学習ツールボックスの基盤となっている。
政策勾配法が自己プレイにおける正規化ナッシュ均衡に証明可能なベストイテレート収束をもたらすことを初めて示す。
論文 参考訳(メタデータ) (2024-08-01T17:54:01Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - On the convergence of policy gradient methods to Nash equilibria in
general stochastic games [33.786186304912]
ナッシュ均衡政策に関する政策勾配法の長期的挙動について検討する。
本稿では,REINFORCEアルゴリズムによって得られる勾配推定値を持つ政策勾配軌跡を$mathcalO (1/sqrtn)$ distance-squared convergence rate とする。
論文 参考訳(メタデータ) (2022-10-17T08:51:59Z) - Independent Natural Policy Gradient Always Converges in Markov Potential
Games [18.43622733760659]
マルコフポテンシャルゲーム(MPG)と呼ばれる複合協調・競争ゲームについて研究する。
独立自然政策グラディエントは常に一定の学習率を用いてMPGに収束することを示す。
我々は, 自然政策グラディエントが, ゲームや渋滞ゲームのルーティングにおいて, ポリシーグラディエントより優れていることを示す実験により, 理論結果を補完する。
論文 参考訳(メタデータ) (2021-10-20T15:15:10Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - Competitive Policy Optimization [137.17299766844596]
本稿では,競争ゲームのゲーム理論的性質を利用してポリシー更新を導出する新しいポリシー勾配手法を提案する。
競合勾配最適化法により、ゲーム目標の双線形近似を導出する。
私たちは、包括的で、挑戦的で、競争的なゲームのセットで、彼らの振る舞いを経験的に調査します。
論文 参考訳(メタデータ) (2020-06-18T15:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。