論文の概要: Independent Policy Mirror Descent for Markov Potential Games: Scaling to Large Number of Players
- arxiv url: http://arxiv.org/abs/2408.08075v1
- Date: Thu, 15 Aug 2024 11:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:16:18.997184
- Title: Independent Policy Mirror Descent for Markov Potential Games: Scaling to Large Number of Players
- Title(参考訳): マルコフポテンシャルゲームのための独立したポリシーミラー
- Authors: Pragnya Alatur, Anas Barakat, Niao He,
- Abstract要約: マルコフポテンシャルゲーム(Markov potential Games、MPG)はマルコフゲームの重要なサブクラスである。
MPGは特別な場合として、すべてのエージェントが同じ報酬関数を共有する、同一の関心の設定を含む。
マルチエージェントシステムでは,Nash平衡学習アルゴリズムの性能を多数のエージェントに拡張することが重要である。
- 参考スコア(独自算出の注目度): 17.55330497310932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov Potential Games (MPGs) form an important sub-class of Markov games, which are a common framework to model multi-agent reinforcement learning problems. In particular, MPGs include as a special case the identical-interest setting where all the agents share the same reward function. Scaling the performance of Nash equilibrium learning algorithms to a large number of agents is crucial for multi-agent systems. To address this important challenge, we focus on the independent learning setting where agents can only have access to their local information to update their own policy. In prior work on MPGs, the iteration complexity for obtaining $\epsilon$-Nash regret scales linearly with the number of agents $N$. In this work, we investigate the iteration complexity of an independent policy mirror descent (PMD) algorithm for MPGs. We show that PMD with KL regularization, also known as natural policy gradient, enjoys a better $\sqrt{N}$ dependence on the number of agents, improving over PMD with Euclidean regularization and prior work. Furthermore, the iteration complexity is also independent of the sizes of the agents' action spaces.
- Abstract(参考訳): マルコフポテンシャルゲーム(MPG)はマルコフゲームの重要なサブクラスを形成し、マルチエージェント強化学習問題をモデル化するための共通のフレームワークである。
特にMPGは、すべてのエージェントが同じ報酬関数を共有するような、同一の関心の設定を特別なケースとして含んでいる。
マルチエージェントシステムでは,Nash平衡学習アルゴリズムの性能を多数のエージェントに拡張することが重要である。
この重要な課題に対処するために、エージェントがローカル情報にアクセスして自身のポリシーを更新できる独立した学習環境に焦点を当てる。
MPG に関する以前の作業では、$\epsilon$-Nash の遺書を取得するのに要するイテレーションの複雑さは、$N$ のエージェントの数と線形にスケールする。
本稿では,MPGに対する独立ポリシーミラー降下(PMD)アルゴリズムの反復複雑性について検討する。
我々は,自然政策勾配としても知られるKL正規化をもつPMDが,エージェント数により良い$\sqrt{N}$依存を享受し,ユークリッド正規化や先行作業によるPMDよりも改善されていることを示す。
さらに、反復複雑性はエージェントのアクション空間のサイズにも依存しない。
関連論文リスト
- Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Provably Efficient Reinforcement Learning in Decentralized General-Sum
Markov Games [5.205867750232226]
本稿では,一般のマルコフゲームにおいて平衡を効率的に学習する問題に対処する。
本稿では,各エージェントが独立して楽観的なV-ラーニングを実行し,未知の環境を効率的に探索するアルゴリズムを提案する。
エージェントは少なくとも$widetildeO(H6S A /epsilon2)$ episodesで$epsilon$-approximate CCEを見つけることができる。
論文 参考訳(メタデータ) (2021-10-12T02:01:22Z) - The Power of Exploiter: Provable Multi-Agent RL in Large State Spaces [36.097537237660234]
そこで本研究では,多くのサンプルを用いてナッシュ均衡政策を立証可能なアルゴリズムを提案する。
新しいアルゴリズムの重要な要素はエクスプローラーであり、彼女の弱点を意図的に活用することで、メインプレイヤーの学習を容易にする。
我々の理論フレームワークは汎用的であり、MG、線形あるいはカーネル関数近似のMG、リッチな観測のMGなど、幅広いモデルに適用できる。
論文 参考訳(メタデータ) (2021-06-07T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。