論文の概要: Independent and Decentralized Learning in Markov Potential Games
- arxiv url: http://arxiv.org/abs/2205.14590v8
- Date: Tue, 01 Apr 2025 00:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 14:54:29.538764
- Title: Independent and Decentralized Learning in Markov Potential Games
- Title(参考訳): マルコフポテンシャルゲームにおける独立学習と分散学習
- Authors: Chinmay Maheshwari, Manxi Wu, Druv Pai, Shankar Sastry,
- Abstract要約: マルチエージェント強化学習ダイナミクスについて検討し、無限水平割引マルコフポテンシャルゲームにおけるその挙動を解析する。
我々は、プレイヤーがゲームパラメータを知らない、コミュニケーションやコーディネートができない、独立的で分散的な設定に焦点を当てる。
- 参考スコア(独自算出の注目度): 3.549868541921029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a multi-agent reinforcement learning dynamics, and analyze its asymptotic behavior in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players do not know the game parameters, and cannot communicate or coordinate. In each stage, players update their estimate of Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating an optimal one-stage deviation strategy based on the estimated Q-function. Inspired by the actor-critic algorithm in single-agent reinforcement learning, a key feature of our learning dynamics is that agents update their Q-function estimates at a faster timescale than the policies. Leveraging tools from two-timescale asynchronous stochastic approximation theory, we characterize the convergent set of learning dynamics.
- Abstract(参考訳): マルチエージェント強化学習ダイナミクスについて検討し,無限水平割引マルコフポテンシャルゲームにおける漸近挙動を解析した。
我々は、プレイヤーがゲームパラメータを知らない、コミュニケーションやコーディネートができない、独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの総入金額を評価するQ関数の推定値を非同期に更新する。
そして、プレイヤーは、推定Q-関数に基づいて最適な1段階偏差戦略を組み込むことで、それぞれのポリシーを独立に更新する。
シングルエージェント強化学習においてアクター批判アルゴリズムにインスパイアされた私たちの学習力学の重要な特徴は、エージェントがQ関数の推定値をポリシーよりも高速な時間スケールで更新することである。
二段階の非同期確率近似理論からツールを活用することで、学習力学の収束集合を特徴づける。
関連論文リスト
- Convergence of Decentralized Actor-Critic Algorithm in General-sum Markov Games [3.8779763612314633]
一般的なマルコフゲームにおける学習アルゴリズムの特性について検討する。
特に,各エージェントがアクター批判学習を動的に採用する分散アルゴリズムに着目した。
論文 参考訳(メタデータ) (2024-09-06T20:49:11Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Unsynchronized Decentralized Q-Learning: Two Timescale Analysis By Persistence [5.3936643052339015]
ゲームのための最近のMARLアルゴリズムである分散Q-ラーニングアルゴリズムの非同期変種について検討する。
提案手法では,Q-factorの更新において一定の学習率を利用することで,従来の作業の同期仮定を緩和する上で極めて重要であることを示す。
この研究は、分散Q-ラーニングアルゴリズムの適用性と、パラメータが独立した方法で選択される設定に対する相対性を拡張する。
論文 参考訳(メタデータ) (2023-08-07T01:32:09Z) - Logit-Q Dynamics for Efficient Learning in Stochastic Teams [1.3927943269211591]
ゲームにおける効率的な学習のための新しいロジット-Qダイナミクスのファミリーを提示する。
未知のダイナミックスを持つチームでは,ロジット-Qのダイナミクスが(ほぼ)効率のよい平衡に到達できることが示される。
論文 参考訳(メタデータ) (2023-02-20T07:07:25Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z) - Decentralized Q-Learning in Zero-sum Markov Games [33.81574774144886]
ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。
この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
論文 参考訳(メタデータ) (2021-06-04T22:42:56Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。