論文の概要: Incentivize without Bonus: Provably Efficient Model-based Online Multi-agent RL for Markov Games
- arxiv url: http://arxiv.org/abs/2502.09780v1
- Date: Thu, 13 Feb 2025 21:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:59.583039
- Title: Incentivize without Bonus: Provably Efficient Model-based Online Multi-agent RL for Markov Games
- Title(参考訳): ボーナスなしのインセンティブ:マルコフゲームのためのモデルベースオンラインマルチエージェントRL
- Authors: Tong Yang, Bo Dai, Lin Xiao, Yuejie Chi,
- Abstract要約: マルチエージェント強化学習(マルチエージェント強化学習、MARL)は、共有された未知の環境におけるエージェントのグループ間の相互作用を含む多くのアプリケーションの中心に位置する。
モデルパラメータの実験的推定をバイアスすることで探索のインセンティブを与える,VMGと呼ばれる新しいモデルベースアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 40.05960121330012
- License:
- Abstract: Multi-agent reinforcement learning (MARL) lies at the heart of a plethora of applications involving the interaction of a group of agents in a shared unknown environment. A prominent framework for studying MARL is Markov games, with the goal of finding various notions of equilibria in a sample-efficient manner, such as the Nash equilibrium (NE) and the coarse correlated equilibrium (CCE). However, existing sample-efficient approaches either require tailored uncertainty estimation under function approximation, or careful coordination of the players. In this paper, we propose a novel model-based algorithm, called VMG, that incentivizes exploration via biasing the empirical estimate of the model parameters towards those with a higher collective best-response values of all the players when fixing the other players' policies, thus encouraging the policy to deviate from its current equilibrium for more exploration. VMG is oblivious to different forms of function approximation, and permits simultaneous and uncoupled policy updates of all players. Theoretically, we also establish that VMG achieves a near-optimal regret for finding both the NEs of two-player zero-sum Markov games and CCEs of multi-player general-sum Markov games under linear function approximation in an online environment, which nearly match their counterparts with sophisticated uncertainty quantification.
- Abstract(参考訳): マルチエージェント強化学習(マルチエージェント強化学習、MARL)は、共有された未知の環境におけるエージェントのグループ間の相互作用を含む多くのアプリケーションの中心に位置する。
MARLを研究するための顕著なフレームワークはマルコフゲームであり、ナッシュ平衡(NE)や粗相関平衡(CCE)のようなサンプル効率のよい方法で平衡の様々な概念を見つけることを目的としている。
しかし、既存のサンプル効率のアプローチでは、関数近似の下での調整された不確実性推定や、プレイヤーの注意深い調整が必要である。
本稿では,VMGと呼ばれる新しいモデルベースアルゴリズムを提案する。このアルゴリズムは,他のプレイヤーのポリシーを修正する際に,各プレイヤーの集団的ベストレスポンス値が高い者に対して,モデルパラメータの実証的推定をバイアスすることで探索を動機付け,現在の均衡から逸脱するようにポリシーを奨励する。
VMGは機能近似の異なる形式に偏りがあり、すべてのプレイヤーの同時かつ未結合なポリシー更新を可能にする。
理論的には、VMGは2人のプレイヤーのゼロサムマルコフゲームのNEと、オンライン環境における線形関数近似の下でのマルチプレイヤーの一般マルコフゲームのCCEの両方を、そのプレイヤーが洗練された不確かさの定量化とほぼ一致しているという、ほぼ最適の後悔を達成していることも証明している。
関連論文リスト
- Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Pareto Actor-Critic for Equilibrium Selection in Multi-Agent
Reinforcement Learning [18.20664209675016]
この研究は、競合しないマルチエージェントゲームにおける平衡選択に焦点を当てている。
Pareto Actor-Critic (Pareto-AC)は、すべてのエージェントのリターンを最大化するアクター批判アルゴリズムである。
論文 参考訳(メタデータ) (2022-09-28T18:14:34Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Non-cooperative Multi-agent Systems with Exploring Agents [10.736626320566707]
マルコフゲームを用いたマルチエージェント動作の規範モデルを開発した。
エージェントが探索するが、最適戦略に近い」モデルに焦点を当てる。
論文 参考訳(メタデータ) (2020-05-25T19:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。