論文の概要: Sample-Efficient Reinforcement Learning of Partially Observable Markov
Games
- arxiv url: http://arxiv.org/abs/2206.01315v1
- Date: Thu, 2 Jun 2022 21:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 12:47:09.454437
- Title: Sample-Efficient Reinforcement Learning of Partially Observable Markov
Games
- Title(参考訳): 部分可観測マルコフゲームのサンプル効率強化学習
- Authors: Qinghua Liu, Csaba Szepesv\'ari, Chi Jin
- Abstract要約: 本稿では,部分観測可能性下でのマルチエージェント強化学習(MARL)の課題について検討する。
我々は、サンプル効率の学習が抽出可能なPOMGの豊富なサブクラス、すなわち弱いPOMGを識別する。
対戦相手と対戦する設定では、楽観的なMLEアルゴリズムの変種がサブ線形後悔を達成することができることを示す。
- 参考スコア(独自算出の注目度): 34.56532481926337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the challenging tasks of Multi-Agent Reinforcement
Learning (MARL) under partial observability, where each agent only sees her own
individual observations and actions that reveal incomplete information about
the underlying state of system. This paper studies these tasks under the
general model of multiplayer general-sum Partially Observable Markov Games
(POMGs), which is significantly larger than the standard model of Imperfect
Information Extensive-Form Games (IIEFGs). We identify a rich subclass of POMGs
-- weakly revealing POMGs -- in which sample-efficient learning is tractable.
In the self-play setting, we prove that a simple algorithm combining optimism
and Maximum Likelihood Estimation (MLE) is sufficient to find approximate Nash
equilibria, correlated equilibria, as well as coarse correlated equilibria of
weakly revealing POMGs, in a polynomial number of samples when the number of
agents is small. In the setting of playing against adversarial opponents, we
show that a variant of our optimistic MLE algorithm is capable of achieving
sublinear regret when being compared against the optimal maximin policies. To
our best knowledge, this work provides the first line of sample-efficient
results for learning POMGs.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習(marl)の課題を部分的可観測性の下で検討する。
本稿では,これらの課題を,IEFG(Imperfect Information Extensive-Form Games)の標準モデルよりもはるかに大きいPOMG(Partially Observable Markov Games)の一般モデルの下で研究する。
我々は、サンプル効率の学習が抽出可能なPOMGの豊富なサブクラス、すなわち弱いPOMGを識別する。
自己プレイ設定において, エージェント数が小さい場合の多項式数において, 近似ナッシュ平衡, 相関平衡, 弱相関平衡, および弱相関平衡を求めるには, 楽観性と最大度推定(mle)を組み合わせた単純なアルゴリズムが十分であることを示す。
対戦相手との対戦設定において,我々の楽観的mleアルゴリズムの変種は,最適最大化ポリシーと比較された場合,サブリニアな後悔が得られることを示す。
我々の知る限り、この研究はPOMGを学習するためのサンプル効率の第一線を提供する。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Posterior Sampling for Competitive RL: Function Approximation and
Partial Observation [96.73342437947014]
我々は,ゼロサムマルコフゲーム(MG)に焦点をあてる。
そこで本研究では,両プレイヤーがナッシュ平衡を学習するためのモデルベース自己再生後サンプリング手法を提案する。
本稿では,潜在的な部分観測可能性を持つ逆MG学習のためのモデルに基づく後部サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T17:59:26Z) - Partially Observable Multi-Agent Reinforcement Learning with Information Sharing [33.145861021414184]
部分的に観察可能なゲーム(POSG)の一般的な枠組みにおける証明可能なマルチエージェント強化学習(RL)について検討する。
我々は,エージェント間での情報共有の可能性,経験的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
論文 参考訳(メタデータ) (2023-08-16T23:42:03Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。