論文の概要: Provably Efficient Offline Multi-agent Reinforcement Learning via
Strategy-wise Bonus
- arxiv url: http://arxiv.org/abs/2206.00159v1
- Date: Wed, 1 Jun 2022 00:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:57:14.684593
- Title: Provably Efficient Offline Multi-agent Reinforcement Learning via
Strategy-wise Bonus
- Title(参考訳): 戦略的ボーナスによるオフラインマルチエージェント強化学習の可能性
- Authors: Qiwen Cui and Simon S. Du
- Abstract要約: 本稿では,共同戦略の信頼区間を構築する戦略的な集中原理を提案する。
2人のプレイヤーによるゼロサムマルコフゲームの場合、戦略的なボーナスの凸性を利用して効率的なアルゴリズムを提案する。
すべてのアルゴリズムは、指定済みの戦略クラスである$Pi$を入力として取り、最良の戦略に近い戦略を$Pi$で出力することができる。
- 参考スコア(独自算出の注目度): 48.34563955829649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers offline multi-agent reinforcement learning. We propose
the strategy-wise concentration principle which directly builds a confidence
interval for the joint strategy, in contrast to the point-wise concentration
principle that builds a confidence interval for each point in the joint action
space. For two-player zero-sum Markov games, by exploiting the convexity of the
strategy-wise bonus, we propose a computationally efficient algorithm whose
sample complexity enjoys a better dependency on the number of actions than the
prior methods based on the point-wise bonus. Furthermore, for offline
multi-agent general-sum Markov games, based on the strategy-wise bonus and a
novel surrogate function, we give the first algorithm whose sample complexity
only scales $\sum_{i=1}^mA_i$ where $A_i$ is the action size of the $i$-th
player and $m$ is the number of players. In sharp contrast, the sample
complexity of methods based on the point-wise bonus would scale with the size
of the joint action space $\Pi_{i=1}^m A_i$ due to the curse of multiagents.
Lastly, all of our algorithms can naturally take a pre-specified strategy class
$\Pi$ as input and output a strategy that is close to the best strategy in
$\Pi$. In this setting, the sample complexity only scales with $\log |\Pi|$
instead of $\sum_{i=1}^mA_i$.
- Abstract(参考訳): 本稿ではオフラインマルチエージェント強化学習について考察する。
本研究では, 協調行動空間における各点の信頼区間を構成する点集中原則とは対照的に, 統合戦略の信頼区間を直接構築する戦略的集中原理を提案する。
2人のプレイヤーのゼロサムマルコフゲームに対して、戦略的なボーナスの凸性を利用して、サンプルの複雑さが従来のポイントワイドボーナスに基づく手法よりもアクションの数により良い依存を享受する計算効率の良いアルゴリズムを提案する。
さらに、オフラインマルチエージェント汎用サムマルコフゲームでは、戦略的なボーナスと新しいサロゲート関数に基づいて、サンプル複雑性が$\sum_{i=1}^ma_i$ しかスケールしない最初のアルゴリズムを与え、ここで$a_i$は$i$-thプレーヤーのアクションサイズ、$m$はプレイヤー数とする。
対照的に、ポイントワイドボーナスに基づくメソッドのサンプル複雑性は、マルチエージェントの呪いのため、ジョイントアクション空間 $\Pi_{i=1}^m A_i$ のサイズにスケールする。
最後に、我々のアルゴリズムは、自然に指定された戦略クラスである$\Pi$を入力として取り、$\Pi$の最良の戦略に近い戦略を出力することができる。
この設定では、サンプル複雑性は$\sum_{i=1}^mA_i$の代わりに$\log |\Pi|$でしかスケールしない。
関連論文リスト
- Hierarchical Strategies for Cooperative Multi-Agent Reinforcement
Learning [0.0]
本稿では,新たな情報理論目標と軌道予測モデルを組み合わせた2段階階層アーキテクチャを提案する。
提案手法は,超硬度SCIIシナリオを解く最初のMARLアルゴリズムとして,我々の知る限り,この技術の新たな状態を確立するものであることを示す。
メソッドのビデオと簡単な概要は、https://sites.google.com/view/hier-strats-marl/home.comで公開されている。
論文 参考訳(メタデータ) (2022-12-14T18:27:58Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。
我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。
我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文 参考訳(メタデータ) (2020-10-04T15:27:39Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。