論文の概要: When Can We Learn General-Sum Markov Games with a Large Number of
Players Sample-Efficiently?
- arxiv url: http://arxiv.org/abs/2110.04184v1
- Date: Fri, 8 Oct 2021 15:06:22 GMT
- Title: When Can We Learn General-Sum Markov Games with a Large Number of
Players Sample-Efficiently?
- Title(参考訳): 多数のプレイヤーがサンプル効率のよい汎用的なマルコフゲームをいつ学べるのか?
- Authors: Ziang Song, Song Mei, Yu Bai
- Abstract要約: 本稿では,m$-player General-sum Markovゲームの設定において,学習目標がより優れたサンプル複雑性を許容するものについて検討する。
まず,$epsilon$-Coarse Correlated Equilibrium (CCE)を$widetildemathcalO(H5Smax_ile m A_i / epsilon2)$ episodesで学習するアルゴリズムを設計する。
第二に、マルコフポテンシャルゲームの重要な特別な場合を考え、$widet内で$epsilon$-approximate Nash平衡を学ぶアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 10.397170312149067
- Abstract: Multi-agent reinforcement learning has made substantial empirical progresses
in solving games with a large number of players. However, theoretically, the
best known sample complexity for finding a Nash equilibrium in general-sum
games scales exponentially in the number of players due to the size of the
joint action space, and there is a matching exponential lower bound. This paper
investigates what learning goals admit better sample complexities in the
setting of $m$-player general-sum Markov games with $H$ steps, $S$ states, and
$A_i$ actions per player. First, we design algorithms for learning an
$\epsilon$-Coarse Correlated Equilibrium (CCE) in
$\widetilde{\mathcal{O}}(H^5S\max_{i\le m} A_i / \epsilon^2)$ episodes, and an
$\epsilon$-Correlated Equilibrium (CE) in
$\widetilde{\mathcal{O}}(H^6S\max_{i\le m} A_i^2 / \epsilon^2)$ episodes. This
is the first line of results for learning CCE and CE with sample complexities
polynomial in $\max_{i\le m} A_i$. Our algorithm for learning CE integrates an
adversarial bandit subroutine which minimizes a weighted swap regret, along
with several novel designs in the outer loop. Second, we consider the important
special case of Markov Potential Games, and design an algorithm that learns an
$\epsilon$-approximate Nash equilibrium within
$\widetilde{\mathcal{O}}(S\sum_{i\le m} A_i / \epsilon^3)$ episodes (when only
highlighting the dependence on $S$, $A_i$, and $\epsilon$), which only depends
linearly in $\sum_{i\le m} A_i$ and significantly improves over the best known
algorithm in the $\epsilon$ dependence. Overall, our results shed light on what
equilibria or structural assumptions on the game may enable sample-efficient
learning with many players.
- Abstract(参考訳): マルチエージェント強化学習は,多数のプレーヤによるゲーム解決において,実証的な進歩を遂げている。
本稿では,$m$-player general-sum Markov game with $H$ steps, $S$ states, $A_i$ action の設定において,学習目標がより複雑なサンプルを許容するかどうかを検討する。
まず、$\widetilde{\mathcal{O}}(H^5S\max_{i\le m} A_i / \epsilon^2)$と$\epsilon$-Correlated Equilibrium(CE)$\widetilde{\mathcal{O}}(H^6S\max_{i\le m} A_i^2 / \epsilon^2)$を学習するためのアルゴリズムを設計する。
これは CCE と CE を$\max_{i\le m} A_i$ の複素数多項式で学習する最初の行である。
CE学習アルゴリズムは, 重み付けされたスワップ後悔を最小限に抑える逆行包帯サブルーチンと, 外ループにおけるいくつかの新しいデザインを統合した。
第二に、マルコフポテンシャルゲームの重要な特別な場合を検討し、$\widetilde{\mathcal{o}}(s\sum_{i\le m} a_i / \epsilon^3)$エピソード($s$, $a_i$, $\epsilon$のみに依存する場合)内で、$\epsilon$-approximate nash平衡を学習するアルゴリズムを設計する。
