論文の概要: Independent and Decentralized Learning in Markov Potential Games
- arxiv url: http://arxiv.org/abs/2205.14590v2
- Date: Tue, 31 May 2022 01:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 11:42:01.970061
- Title: Independent and Decentralized Learning in Markov Potential Games
- Title(参考訳): マルコフポテンシャルゲームにおける独立学習と分散学習
- Authors: Chinmay Maheshwari and Manxi Wu and Druv Pai and Shankar Sastry
- Abstract要約: マルチエージェント強化学習ダイナミクスを提案し、マルコフポテンシャルゲームにおける収束特性を解析する。
我々は、プレイヤーが現実の状態とそれぞれの報酬を各ステージでのみ観察できる、独立的で分散化された設定に焦点を当てる。
学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおいて定常ナッシュ平衡に収束することを示す。
- 参考スコア(独自算出の注目度): 1.577134752543077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a multi-agent reinforcement learning dynamics, and analyze its
convergence properties in infinite-horizon discounted Markov potential games.
We focus on the independent and decentralized setting, where players can only
observe the realized state and their own reward in every stage. Players do not
have knowledge of the game model, and cannot coordinate with each other. In
each stage of our learning dynamics, players update their estimate of a
perturbed Q-function that evaluates their total contingent payoff based on the
realized one-stage reward in an asynchronous manner. Then, players
independently update their policies by incorporating a smoothed optimal
one-stage deviation strategy based on the estimated Q-function. A key feature
of the learning dynamics is that the Q-function estimates are updated at a
faster timescale than the policies. We prove that the policies induced by our
learning dynamics converge to a stationary Nash equilibrium in Markov potential
games with probability 1. Our results build on the theory of two timescale
asynchronous stochastic approximation, and new analysis on the monotonicity of
potential function along the trajectory of policy updates in Markov potential
games.
- Abstract(参考訳): マルチエージェント強化学習ダイナミクスを提案し、無限水平割引マルコフポテンシャルゲームにおける収束特性を解析する。
我々は、プレイヤーが現実の状態とそれぞれの報酬を各ステージでのみ観察できる、独立的で分散化された設定に焦点を当てる。
プレイヤーはゲームモデルについての知識がなく、互いに協調することができない。
学習力学の各段階において、プレイヤーは、現実の1段階の報酬に基づいて、各時点の報酬を非同期に評価する摂動Q関数の見積を更新する。
そして、プレイヤーは、推定Q-関数に基づいて、スムーズな最適1段偏差戦略を組み込むことで、それぞれのポリシーを独立に更新する。
学習ダイナミクスの重要な特徴は、q関数の見積もりがポリシーよりも高速なタイムスケールで更新されることです。
学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおいて定常ナッシュ平衡に収束することを示す。
この結果は,2つの時間スケール非同期確率近似の理論と,マルコフポテンシャルゲームにおける方針更新の軌跡に沿ったポテンシャル関数の単調性に関する新しい解析に基づいている。
関連論文リスト
- Convergence of Decentralized Actor-Critic Algorithm in General-sum Markov Games [3.8779763612314633]
一般的なマルコフゲームにおける学習アルゴリズムの特性について検討する。
特に,各エージェントがアクター批判学習を動的に採用する分散アルゴリズムに着目した。
論文 参考訳(メタデータ) (2024-09-06T20:49:11Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Decentralized Q-Learning in Zero-sum Markov Games [33.81574774144886]
ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。
この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
論文 参考訳(メタデータ) (2021-06-04T22:42:56Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。