論文の概要: Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model
- arxiv url: http://arxiv.org/abs/2208.10458v1
- Date: Mon, 22 Aug 2022 17:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:00:35.608362
- Title: Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model
- Title(参考訳): 生成モデルを用いたゼロサムマルコフゲームにおけるミニマックス最適マルチエージェントRL
- Authors: Gen Li, Yuejie Chi, Yuting Wei, Yuxin Chen
- Abstract要約: 2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
- 参考スコア(独自算出の注目度): 50.38446482252857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is concerned with two-player zero-sum Markov games -- arguably the
most basic setting in multi-agent reinforcement learning -- with the goal of
learning a Nash equilibrium (NE) sample-optimally. All prior results suffer
from at least one of the two obstacles: the curse of multiple agents and the
barrier of long horizon, regardless of the sampling protocol in use. We take a
step towards settling this problem, assuming access to a flexible sampling
mechanism: the generative model. Focusing on non-stationary finite-horizon
Markov games, we develop a learning algorithm
$\mathsf{Nash}\text{-}\mathsf{Q}\text{-}\mathsf{FTRL}$ and an adaptive sampling
scheme that leverage the optimism principle in adversarial learning
(particularly the Follow-the-Regularized-Leader (FTRL) method), with a delicate
design of bonus terms that ensure certain decomposability under the FTRL
dynamics. Our algorithm learns an $\varepsilon$-approximate Markov NE policy
using
$$ \widetilde{O}\bigg( \frac{H^4 S(A+B)}{\varepsilon^2} \bigg) $$ samples,
where $S$ is the number of states, $H$ is the horizon, and $A$ (resp.~$B$)
denotes the number of actions for the max-player (resp.~min-player). This is
nearly un-improvable in a minimax sense. Along the way, we derive a refined
regret bound for FTRL that makes explicit the role of variance-type quantities,
which might be of independent interest.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習における最も基本的な設定である2人プレイのゼロサムマルコフゲームについて,nash平衡(ne)サンプル最適学習を目標とする。
以前の結果は、使用中のサンプリングプロトコルに関係なく、複数のエージェントの呪いと長い水平線の障壁という2つの障害の少なくとも1つに悩まされていた。
我々は、フレキシブルなサンプリング機構である生成モデルへのアクセスを前提として、この問題の解決に向けて一歩踏み出した。
非定常有限ホライゾンマルコフゲームに焦点をあてて、学習アルゴリズム $\mathsf{Nash}\text{-}\mathsf{Q}\text{-}\mathsf{FTRL}$ と、FTRL力学の下で特定の分解性を保証するボーナス項を微妙に設計した対数学習における最適化原理(特にFTRL法)を利用する適応型スケジューリングスキームを開発する。
アルゴリズムは$\varepsilon$-approximate markov neポリシーを$ \widetilde{o}\bigg( \frac{h^4 s(a+b)}{\varepsilon^2} \bigg)$$サンプルを用いて学習し、$s$は状態の数、$h$は地平線、$a$(resp.~$b$)はmax-playerのアクションの数を表す(resp.~min-player)。
これはミニマックスの意味ではほとんど改善できない。
その過程で、FTRLに対して、独立した関心を持つかもしれない分散型量の役割を明確にする、洗練された後悔境界を導出する。
関連論文リスト
- Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Model-Based Reinforcement Learning for Offline Zero-Sum Markov Games [18.832436856339587]
本稿では,オフラインデータから2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡の学習に向けて前進する。
ベルンシュタイン型低信頼境界を持つ悲観的モデルベースアルゴリズム(VI-LCB-Game)を提案する。
論文 参考訳(メタデータ) (2022-06-08T17:58:06Z) - Provably Efficient Reinforcement Learning in Decentralized General-Sum
Markov Games [5.205867750232226]
本稿では,一般のマルコフゲームにおいて平衡を効率的に学習する問題に対処する。
本稿では,各エージェントが独立して楽観的なV-ラーニングを実行し,未知の環境を効率的に探索するアルゴリズムを提案する。
エージェントは少なくとも$widetildeO(H6S A /epsilon2)$ episodesで$epsilon$-approximate CCEを見つけることができる。
論文 参考訳(メタデータ) (2021-10-12T02:01:22Z) - A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。
我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。
我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文 参考訳(メタデータ) (2020-10-04T15:27:39Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。