論文の概要: The Power of Exploiter: Provable Multi-Agent RL in Large State Spaces
- arxiv url: http://arxiv.org/abs/2106.03352v1
- Date: Mon, 7 Jun 2021 05:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:49:13.177286
- Title: The Power of Exploiter: Provable Multi-Agent RL in Large State Spaces
- Title(参考訳): 爆発機の力:大規模国家空間における確率的マルチエージェントRL
- Authors: Chi Jin, Qinghua Liu, Tiancheng Yu
- Abstract要約: そこで本研究では,多くのサンプルを用いてナッシュ均衡政策を立証可能なアルゴリズムを提案する。
新しいアルゴリズムの重要な要素はエクスプローラーであり、彼女の弱点を意図的に活用することで、メインプレイヤーの学習を容易にする。
我々の理論フレームワークは汎用的であり、MG、線形あるいはカーネル関数近似のMG、リッチな観測のMGなど、幅広いモデルに適用できる。
- 参考スコア(独自算出の注目度): 36.097537237660234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern reinforcement learning (RL) commonly engages practical problems with
large state spaces, where function approximation must be deployed to
approximate either the value function or the policy. While recent progresses in
RL theory address a rich set of RL problems with general function
approximation, such successes are mostly restricted to the single-agent
setting. It remains elusive how to extend these results to multi-agent RL,
especially due to the new challenges arising from its game-theoretical nature.
This paper considers two-player zero-sum Markov Games (MGs). We propose a new
algorithm that can provably find the Nash equilibrium policy using a polynomial
number of samples, for any MG with low multi-agent Bellman-Eluder dimension --
a new complexity measure adapted from its single-agent version (Jin et al.,
2021). A key component of our new algorithm is the exploiter, which facilitates
the learning of the main player by deliberately exploiting her weakness. Our
theoretical framework is generic, which applies to a wide range of models
including but not limited to tabular MGs, MGs with linear or kernel function
approximation, and MGs with rich observations.
- Abstract(参考訳): 現代の強化学習(RL)は、一般に、関数近似を、値関数またはポリシーを近似するために配置する必要がある大きな状態空間で実践的な問題に取り組む。
近年のRL理論の進歩は一般関数近似によるリッチなRL問題に対処しているが、そのような成功は主に単一エージェントの設定に限られている。
これらの結果をマルチエージェント RL に拡張する方法は,特にゲーム理論の性質から生じる新たな課題のため,いまだ解明されていない。
本稿では,2プレイヤーゼロサムマルコフゲーム(MG)について考察する。
本稿では, マルチエージェントのベルマン・エルダー次元が低い任意のMGに対して, 多項式数を用いてナッシュ均衡ポリシを確実に見つけることができる新しいアルゴリズムを提案する(Jin et al., 2021)。
新しいアルゴリズムの重要な要素はエクスプロイラーであり、その弱点を故意に活用することでメインプレイヤーの学習を容易にする。
理論的な枠組みは汎用的であり, 表型mgs, 線形あるいは核関数近似のmgs, 観測量の豊富なmgsなど, 幅広いモデルに適用できる。
関連論文リスト
- Independent Policy Mirror Descent for Markov Potential Games: Scaling to Large Number of Players [17.55330497310932]
マルコフポテンシャルゲーム(Markov potential Games、MPG)はマルコフゲームの重要なサブクラスである。
MPGは特別な場合として、すべてのエージェントが同じ報酬関数を共有する、同一の関心の設定を含む。
マルチエージェントシステムでは,Nash平衡学習アルゴリズムの性能を多数のエージェントに拡張することが重要である。
論文 参考訳(メタデータ) (2024-08-15T11:02:05Z) - Refined Sample Complexity for Markov Games with Independent Linear Function Approximation [49.5660193419984]
マルコフゲーム(MG)はマルチエージェント強化学習(MARL)の重要なモデルである
本稿では、WangらによるAVLPRフレームワークを改良し(2023年)、最適部分ギャップの悲観的推定を設計する。
マルチエージェントの呪いに取り組み、最適な$O(T-1/2)収束率を達成し、同時に$textpoly(A_max)$依存性を避ける最初のアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-02-11T01:51:15Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Multi-agent Policy Reciprocity with Theoretical Guarantee [24.65151626601257]
提案手法は,不一致状態においてもエージェント間政策を完全に活用できる,新しいマルチエージェントポリシー相互性(PR)フレームワークを提案する。
離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。
論文 参考訳(メタデータ) (2023-04-12T06:27:10Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。