論文の概要: Instance-dependent Sample Complexity Bounds for Zero-sum Matrix Games
- arxiv url: http://arxiv.org/abs/2303.10565v1
- Date: Sun, 19 Mar 2023 04:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 18:31:03.168248
- Title: Instance-dependent Sample Complexity Bounds for Zero-sum Matrix Games
- Title(参考訳): ゼロサム行列ゲームのためのインスタンス依存サンプル複素境界
- Authors: Arnab Maiti, Kevin Jamieson, Lillian J. Ratliff
- Abstract要約: 2人プレイヤゼロサム$ntimes 2$行列ゲームにおける近似平衡を同定するサンプル複雑性について検討する。
ゲーム行列上の順序付けを定義するインスタンス依存境界を導出する。
この低い境界を達成するためのプレイヤー戦略が存在する。
- 参考スコア(独自算出の注目度): 19.723551683930776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the sample complexity of identifying an approximate equilibrium for
two-player zero-sum $n\times 2$ matrix games. That is, in a sequence of
repeated game plays, how many rounds must the two players play before reaching
an approximate equilibrium (e.g., Nash)? We derive instance-dependent bounds
that define an ordering over game matrices that captures the intuition that the
dynamics of some games converge faster than others. Specifically, we consider a
stochastic observation model such that when the two players choose actions $i$
and $j$, respectively, they both observe each other's played actions and a
stochastic observation $X_{ij}$ such that $\mathbb E[ X_{ij}] = A_{ij}$. To our
knowledge, our work is the first case of instance-dependent lower bounds on the
number of rounds the players must play before reaching an approximate
equilibrium in the sense that the number of rounds depends on the specific
properties of the game matrix $A$ as well as the desired accuracy. We also
prove a converse statement: there exist player strategies that achieve this
lower bound.
- Abstract(参考訳): 2人プレイヤゼロサム$n\times 2$行列ゲームに対する近似平衡を同定するサンプル複雑性について検討する。
つまり、繰り返しプレイするゲームでは、2人のプレーヤーが近似均衡(例えばナッシュ)に達する前に何ラウンドプレイしなければならないのか?
我々は、あるゲームのダイナミクスが他のゲームよりも早く収束するという直感を捉えるゲーム行列の順序付けを定義するインスタンス依存境界を導出する。
具体的には、2人のプレーヤーがそれぞれアクションを$i$と$j$を選択すると、それぞれが互いのプレイアクションを観察し、確率的観察を$X_{ij}$が$\mathbb E[X_{ij}] = A_{ij}$とする確率的観察モデルを考える。
我々の知る限り、我々の研究は、ゲームマトリックス $a$ の特定の特性と所望の精度に依存するという意味で、プレイヤーが近似平衡に達する前にプレイしなければならないラウンド数に対するインスタンス依存下限の最初のケースである。
我々はまた、逆の言明を証明している: この下限を達成するプレイヤー戦略が存在する。
関連論文リスト
- Last-Iterate Convergence of Payoff-Based Independent Learning in Zero-Sum Stochastic Games [31.554420227087043]
両プレイヤー間のペイオフベース、収束、合理的、対称な学習ダイナミクスを開発する。
行列ゲーム設定では、結果はナッシュ分布を見つけるために$O(epsilon-1)$の複雑さを意味する。
ゲーム設定では、結果はナッシュ平衡を求めるために$O(epsilon-8)$の複雑さをも意味している。
論文 参考訳(メタデータ) (2024-09-02T20:07:25Z) - Games played by Exponential Weights Algorithms [0.0]
各プレイヤーは、初期混合動作と固定学習率を特徴とする指数重み付けアルゴリズムを使用する。
厳密なナッシュ均衡が存在するときは常に、次の段階で厳密なナッシュ均衡を行う確率は、ほぼ確実に0または1に収束することを示す。
論文 参考訳(メタデータ) (2024-07-09T08:49:51Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Scalable and Independent Learning of Nash Equilibrium Policies in
$n$-Player Stochastic Games with Unknown Independent Chains [1.0878040851638]
独立な連鎖と未知の遷移行列を持つゲームについて研究する。
このクラスのゲームでは、プレイヤーは他のプレイヤーの状態や行動に依存しない内部マルコフ連鎖を制御する。
我々は、$epsilon$-NEポリシーを学ぶために、完全に分散化されたミラー降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T03:04:09Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Near-Optimal Learning of Extensive-Form Games with Imperfect Information [54.55092907312749]
本稿では,2プレイヤーゼロサムゲームにおいて,$widetildemathcalO((XA+YB)/varepsilon2)$プレイのエピソードのみを必要とするアルゴリズムの最初の行を,$varepsilon$-approximate Nash平衡を求める。
これにより$widetildemathcalO((X2A+Y2B)/varepsilon2)$が$widetildemathcalO(maxX,
論文 参考訳(メタデータ) (2022-02-03T18:18:28Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - When Can We Learn General-Sum Markov Games with a Large Number of
Players Sample-Efficiently? [10.397170312149067]
本稿では,m$-player General-sum Markovゲームの設定において,学習目標がより優れたサンプル複雑性を許容するものについて検討する。
まず,$epsilon$-Coarse Correlated Equilibrium (CCE)を$widetildemathcalO(H5Smax_ile m A_i / epsilon2)$ episodesで学習するアルゴリズムを設計する。
第二に、マルコフポテンシャルゲームの重要な特別な場合を考え、$widet内で$epsilon$-approximate Nash平衡を学ぶアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-10-08T15:06:22Z) - Almost Optimal Algorithms for Two-player Markov Games with Linear
Function Approximation [92.99933928528797]
同時動作による2プレイヤーゼロサムマルコフゲームの強化学習について検討した。
我々は,「不確かさの最適性」に基づくアルゴリズムナッシュ-UCRL-VTRを提案する。
我々は、Nash-UCRL-VTR が $tildeO(dHsqrtT)$ regret を確実に達成できることを示し、$d$ は線型関数次元である。
論文 参考訳(メタデータ) (2021-02-15T09:09:16Z) - Near-Optimal Reinforcement Learning with Self-Play [50.29853537456737]
我々は,直接の監督なしに自己対決で最適な政策を学習するセルフプレイアルゴリズムに焦点をあてる。
本稿では,サンプル複雑性を$tildemathcalO(SAB)$,サンプル複雑性を$tildemathcalO(S(A+B)$とする新しいemphNash Vラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T05:00:13Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。