論文の概要: A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2206.05825v4
- Date: Tue, 11 Apr 2023 17:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 19:14:27.129973
- Title: A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games
- Title(参考訳): 強化学習, 量子応答平衡, 2プレイヤーゼロサムゲームへの統一的アプローチ
- Authors: Samuel Sokota, Ryan D'Orazio, J. Zico Kolter, Nicolas Loizou, Marc
Lanctot, Ioannis Mitliagkas, Noam Brown, Christian Kroer
- Abstract要約: この研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムにインスパイアされた、磁気ミラー降下と呼ばれるアルゴリズムを研究する。
我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の利点を実証することである。
- 参考スコア(独自算出の注目度): 104.3339905200105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies an algorithm, which we call magnetic mirror descent, that
is inspired by mirror descent and the non-Euclidean proximal gradient
algorithm. Our contribution is demonstrating the virtues of magnetic mirror
descent as both an equilibrium solver and as an approach to reinforcement
learning in two-player zero-sum games. These virtues include: 1) Being the
first quantal response equilibria solver to achieve linear convergence for
extensive-form games with first order feedback; 2) Being the first standard
reinforcement learning algorithm to achieve empirically competitive results
with CFR in tabular settings; 3) Achieving favorable performance in 3x3 Dark
Hex and Phantom Tic-Tac-Toe as a self-play deep reinforcement learning
algorithm.
- Abstract(参考訳): 本研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムに触発された磁気ミラー降下と呼ばれるアルゴリズムについて研究する。
我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の効果を示すことである。
これらの美徳には以下のものがある。
1) 1次フィードバックによる広範囲ゲームに対して線形収束を達成する最初の量子応答平衡解法である。
2)表形式でcfrを用いた経験的競争結果を達成する最初の標準強化学習アルゴリズムである。
3) 自己プレイ型深層強化学習アルゴリズムとしての3x3ダークヘックスとファントムtic-tac-toeの性能向上
関連論文リスト
- Last-Iterate Convergence of Payoff-Based Independent Learning in Zero-Sum Stochastic Games [31.554420227087043]
両プレイヤー間のペイオフベース、収束、合理的、対称な学習ダイナミクスを開発する。
行列ゲーム設定では、結果はナッシュ分布を見つけるために$O(epsilon-1)$の複雑さを意味する。
ゲーム設定では、結果はナッシュ平衡を求めるために$O(epsilon-8)$の複雑さをも意味している。
論文 参考訳(メタデータ) (2024-09-02T20:07:25Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Payoff-based learning with matrix multiplicative weights in quantum
games [35.111876815522116]
量子ゲーム(および半定値ゲーム)における学習の問題を、スカラーでペイオフに基づくフィードバックを用いて研究する。
本稿では,情報フレームワークに合わせた最小情報行列乗法(3MW)を提案する。
決定論的ペイオフフィードバックを持つ3MW法は,量子ミニマックスゲームにおけるバニラ,フル情報MMWアルゴリズムの収束率を保っていることを示す。
論文 参考訳(メタデータ) (2023-11-04T14:56:17Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Alternating Mirror Descent for Constrained Min-Max Games [44.46086335474311]
制約付き戦略空間を持つ2プレイヤー双線形ゼロサムゲームについて検討する。
我々は,各プレイヤーが交互に行動する交互ミラー降下アルゴリズムを,制約付き最適化のためのミラー降下アルゴリズムに従って解析する。
論文 参考訳(メタデータ) (2022-06-08T20:48:16Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。