論文の概要: A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2206.05825v1
- Date: Sun, 12 Jun 2022 19:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:05:39.709210
- Title: A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games
- Title(参考訳): 強化学習, 量子応答平衡, 2プレイヤーゼロサムゲームへの統一的アプローチ
- Authors: Samuel Sokota, Ryan D'Orazio, J. Zico Kolter, Nicolas Loizou, Marc
Lanctot, Ioannis Mitliagkas, Noam Brown, Christian Kroer
- Abstract要約: 近位正則化(MMD)によるミラー降下に対する単純な拡張である1つのアルゴリズムは、両方の設定で強い結果が得られることを示す。
シングルエージェントディープRLでは,Atari と Mujoco の小さなコレクションにおいて,MDD が PPO と競合する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 104.3339905200105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithms designed for single-agent reinforcement learning (RL) generally
fail to converge to equilibria in two-player zero-sum (2p0s) games. Conversely,
game-theoretic algorithms for approximating Nash and quantal response
equilibria (QREs) in 2p0s games are not typically competitive for RL and can be
difficult to scale. As a result, algorithms for these two cases are generally
developed and evaluated separately. In this work, we show that a single
algorithm -- a simple extension to mirror descent with proximal regularization
that we call magnetic mirror descent (MMD) -- can produce strong results in
both settings, despite their fundamental differences. From a theoretical
standpoint, we prove that MMD converges linearly to QREs in extensive-form
games -- this is the first time linear convergence has been proven for a first
order solver. Moreover, applied as a tabular Nash equilibrium solver via
self-play, we show empirically that MMD produces results competitive with CFR
in both normal-form and extensive-form games with full feedback (this is the
first time that a standard RL algorithm has done so) and also that MMD
empirically converges in black-box feedback settings. Furthermore, for
single-agent deep RL, on a small collection of Atari and Mujoco games, we show
that MMD can produce results competitive with those of PPO. Lastly, for
multi-agent deep RL, we show MMD can outperform NFSP in 3x3 Abrupt Dark Hex.
- Abstract(参考訳): シングルエージェント強化学習(RL)用に設計されたアルゴリズムは、一般に2プレイヤーゼロサム(2p0s)ゲームにおいて平衡に収束しない。
逆に、2p0sゲームにおけるナッシュと量子応答平衡(QRE)を近似するゲーム理論アルゴリズムは、通常RLと競合せず、スケールが難しい。
結果として、これらの2つのケースのアルゴリズムは一般に個別に開発・評価される。
本研究では,磁気ミラー降下 (mmd) と呼ばれる近位正規化を持つミラー降下の単純な拡張である単一アルゴリズムが,その基本的な違いにもかかわらず,両方の設定において強い結果をもたらすことを示す。
理論的観点からは、mmd が拡張形式のゲームにおいて qre に線形収束することを証明する。
さらに,表型ナッシュ均衡解法として自己遊びを通じて適用することで,mmdが通常のゲームと広範囲のゲームの両方においてcfrと競合し,完全なフィードバック(これは標準のrlアルゴリズムが初めて行ったことであり,経験的にブラックボックスのフィードバック設定に収束することを示す。
さらに,シングルエージェントディープRLでは,アタリゲームやムジョコゲームなどの小さなコレクションにおいて,MDDがPPOと競合する結果が得られることを示す。
最後に,マルチエージェント深部RLの場合,MDDは3x3のAbrupt Dark HexにおいてNFSPより優れることを示す。
関連論文リスト
- Last-Iterate Convergence of Payoff-Based Independent Learning in Zero-Sum Stochastic Games [31.554420227087043]
両プレイヤー間のペイオフベース、収束、合理的、対称な学習ダイナミクスを開発する。
行列ゲーム設定では、結果はナッシュ分布を見つけるために$O(epsilon-1)$の複雑さを意味する。
ゲーム設定では、結果はナッシュ平衡を求めるために$O(epsilon-8)$の複雑さをも意味している。
論文 参考訳(メタデータ) (2024-09-02T20:07:25Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Payoff-based learning with matrix multiplicative weights in quantum
games [35.111876815522116]
量子ゲーム(および半定値ゲーム)における学習の問題を、スカラーでペイオフに基づくフィードバックを用いて研究する。
本稿では,情報フレームワークに合わせた最小情報行列乗法(3MW)を提案する。
決定論的ペイオフフィードバックを持つ3MW法は,量子ミニマックスゲームにおけるバニラ,フル情報MMWアルゴリズムの収束率を保っていることを示す。
論文 参考訳(メタデータ) (2023-11-04T14:56:17Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Alternating Mirror Descent for Constrained Min-Max Games [44.46086335474311]
制約付き戦略空間を持つ2プレイヤー双線形ゼロサムゲームについて検討する。
我々は,各プレイヤーが交互に行動する交互ミラー降下アルゴリズムを,制約付き最適化のためのミラー降下アルゴリズムに従って解析する。
論文 参考訳(メタデータ) (2022-06-08T20:48:16Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。