Fugu-MT 論文翻訳(概要): Independent and Decentralized Learning in Markov Potential Games

論文の概要: Independent and Decentralized Learning in Markov Potential Games

arxiv url: http://arxiv.org/abs/2205.14590v6
Date: Fri, 10 Nov 2023 07:03:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 18:55:02.518330
Title: Independent and Decentralized Learning in Markov Potential Games
Title（参考訳）: マルコフポテンシャルゲームにおける独立学習と分散学習
Authors: Chinmay Maheshwari and Manxi Wu and Druv Pai and Shankar Sastry
Abstract要約: 我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
参考スコア（独自算出の注目度）: 3.8779763612314633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a multi-agent reinforcement learning dynamics, and analyze its convergence in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players do not have knowledge of the game model and cannot coordinate. In each stage, players update their estimate of Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating an optimal one-stage deviation strategy based on the estimated Q-function. A key feature of the learning dynamics is that the Q-function estimates are updated at a faster timescale than the policies. We prove that the policies induced by our learning dynamics converge to the set of stationary Nash equilibria in Markov potential games with probability 1. Our results highlight the efficacy of simple learning dynamics in reaching to the set of stationary Nash equilibrium even in environments with minimal information available.
Abstract（参考訳）: マルチエージェント強化学習ダイナミックスを提案し、無限水平割引マルコフポテンシャルゲームにおける収束解析を行う。我々は、プレイヤーがゲームモデルに関する知識を持っておらず、協調できない独立的で分散的な設定に焦点を当てる。各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの総入金額を評価するQ関数の推定値を非同期に更新する。そして、推定されたq関数に基づいて最適な一段階偏差戦略を組み込むことで、プレイヤーのポリシーを独立に更新する。学習ダイナミクスの重要な特徴は、q関数の見積もりがポリシーよりも高速なタイムスケールで更新されることです。学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。本研究は,最小限の情報しか得られない環境でも定常ナッシュ平衡のセットに到達できる単純な学習ダイナミクスの有効性を浮き彫りにする。

関連論文リスト

Convergence of Decentralized Actor-Critic Algorithm in General-sum Markov Games [3.8779763612314633]
一般的なマルコフゲームにおける学習アルゴリズムの特性について検討する。特に,各エージェントがアクター批判学習を動的に採用する分散アルゴリズムに着目した。
論文参考訳（メタデータ） (2024-09-06T20:49:11Z)
Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文参考訳（メタデータ） (2023-12-19T11:34:10Z)
Unsynchronized Decentralized Q-Learning: Two Timescale Analysis By Persistence [5.3936643052339015]
ゲームのための最近のMARLアルゴリズムである分散Q-ラーニングアルゴリズムの非同期変種について検討する。提案手法では,Q-factorの更新において一定の学習率を利用することで,従来の作業の同期仮定を緩和する上で極めて重要であることを示す。この研究は、分散Q-ラーニングアルゴリズムの適用性と、パラメータが独立した方法で選択される設定に対する相対性を拡張する。
論文参考訳（メタデータ） (2023-08-07T01:32:09Z)
Logit-Q Dynamics for Efficient Learning in Stochastic Teams [1.3927943269211591]
ゲームにおける効率的な学習のための新しいロジット-Qダイナミクスのファミリーを提示する。未知のダイナミックスを持つチームでは,ロジット-Qのダイナミクスが(ほぼ)効率のよい平衡に到達できることが示される。
論文参考訳（メタデータ） (2023-02-20T07:07:25Z)
Breaking the Curse of Multiagents in a Large State Space: RL in Markov Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文参考訳（メタデータ） (2023-02-07T18:47:48Z)
Asymptotic Convergence and Performance of Multi-Agent Q-Learning Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文参考訳（メタデータ） (2023-01-23T18:39:11Z)
Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文参考訳（メタデータ） (2022-11-29T05:16:41Z)
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文参考訳（メタデータ） (2022-05-05T05:44:26Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Learning from Heterogeneous Data Based on Social Interactions over Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。私たちはそれを示します。戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。私たちはそれを示します。戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文参考訳（メタデータ） (2021-12-17T12:47:18Z)
Decentralized Q-Learning in Zero-sum Markov Games [33.81574774144886]
ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
論文参考訳（メタデータ） (2021-06-04T22:42:56Z)
Independent Policy Gradient Methods for Competitive Reinforcement Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文参考訳（メタデータ） (2021-01-11T23:20:42Z)
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2020-10-21T11:19:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。