論文の概要: Mean-Field Controls with Q-learning for Cooperative MARL: Convergence
and Complexity Analysis
- arxiv url: http://arxiv.org/abs/2002.04131v6
- Date: Fri, 1 Oct 2021 17:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:38:21.551312
- Title: Mean-Field Controls with Q-learning for Cooperative MARL: Convergence
and Complexity Analysis
- Title(参考訳): 協調型MARLのためのQ学習による平均場制御:収束と複雑度解析
- Authors: Haotian Gu, Xin Guo, Xiaoli Wei, Renyuan Xu
- Abstract要約: 本稿では,平均場制御(MFC)手法を用いて協調的なMARLを近似する数学的枠組みを構築する。
モデルのないカーネルベースのQ-ラーニングアルゴリズム (MFC-K-Q) を提案する。
- 参考スコア(独自算出の注目度): 7.800126150380472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL), despite its popularity and
empirical success, suffers from the curse of dimensionality. This paper builds
the mathematical framework to approximate cooperative MARL by a mean-field
control (MFC) approach, and shows that the approximation error is of
$\mathcal{O}(\frac{1}{\sqrt{N}})$. By establishing an appropriate form of the
dynamic programming principle for both the value function and the Q function,
it proposes a model-free kernel-based Q-learning algorithm (MFC-K-Q), which is
shown to have a linear convergence rate for the MFC problem, the first of its
kind in the MARL literature. It further establishes that the convergence rate
and the sample complexity of MFC-K-Q are independent of the number of agents
$N$, which provides an $\mathcal{O}(\frac{1}{\sqrt{N}})$ approximation to the
MARL problem with $N$ agents in the learning environment. Empirical studies for
the network traffic congestion problem demonstrate that MFC-K-Q outperforms
existing MARL algorithms when $N$ is large, for instance when $N>50$.
- Abstract(参考訳): マルチエージェント強化学習(MARL)はその人気と経験的成功にもかかわらず、次元性の呪いに悩まされている。
本稿では、平均場制御(MFC)アプローチにより協調MARLを近似する数学的枠組みを構築し、近似誤差が$\mathcal{O}(\frac{1}{\sqrt{N}})$であることを示す。
値関数とQ関数の両方に対して動的プログラミング原理の適切な形式を確立することにより、MFC問題に対する線形収束率を持つモデルフリーカーネルベースのQ-ラーニングアルゴリズム(MFC-K-Q)を提案する。
さらに、MFC-K-Qの収束率とサンプルの複雑さは、学習環境における$N$エージェントによるMARL問題に対する$\mathcal{O}(\frac{1}{\sqrt{N}})$近似を提供するエージェント数$N$とは独立であることを示す。
ネットワークトラフィックの混雑問題に対する実証的研究により、MFC-K-Qは、例えば$N>50$が大きければ既存のMARLアルゴリズムよりも優れることを示した。
関連論文リスト
- DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - Breaking the Curse of Multiagency: Provably Efficient Decentralized
Multi-Agent RL with Function Approximation [44.051717720483595]
本稿では,マルチ緊急近似の呪いを確実に解決するMARLアルゴリズムの1行について述べる。
より弱いバージョンのCCEを学習する代わりに、このアルゴリズムは一般的な関数近似の下で幅広い問題に適用される。
我々のアルゴリズムは常にMarkov CCEを出力し、最適レートは$widetildemathcalO(epsilon-2)$で$epsilon$-optimal Solutionを見つける。
論文 参考訳(メタデータ) (2023-02-13T18:59:25Z) - Mean-Field Approximation of Cooperative Constrained Multi-Agent Reinforcement Learning (CMARL) [35.18639326270473]
制約が存在する場合でも, MFC を用いて MARL 問題を近似できることを示す。
また、Natural Policy Gradientベースのアルゴリズムを提供し、$mathcalO(e)$の誤差で制限されたMARL問題を、$mathcalO(e-6)$の複雑さで解くことができることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:33:38Z) - Can Mean Field Control (MFC) Approximate Cooperative Multi Agent
Reinforcement Learning (MARL) with Non-Uniform Interaction? [33.484960394599455]
MFC(Mean-Field Control)は,MARL(Multi-Agent Reinforcement)問題を解決する強力なツールである。
本稿では、交換可能性の仮定を緩和し、任意の二重行列を介してエージェント間の相互作用をモデル化する。
各エージェントの報酬が、そのエージェントが見た平均場のアフィン関数であるなら、そのような一様でないMARL問題を近似することができる。
論文 参考訳(メタデータ) (2022-02-28T19:03:09Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Reinforcement Learning for Mean Field Games, with Applications to
Economics [0.0]
平均場ゲーム(MFG)および平均場制御問題(平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題)は、エージェントの連続体を持つゲームにおいてナッシュ平衡または社会的最適性を研究するためのフレームワークである。
本稿では,MFGとMFCのためのRLを用いた2つの時間スケールアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-25T16:45:04Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Unified Reinforcement Q-Learning for Mean Field Game and Control
Problems [0.0]
本稿では、無限水平平均場ゲーム(MFG)と平均場制御(MFC)問題を解決するために強化学習(RL)アルゴリズムを提案する。
このアルゴリズムは,2つの学習パラメータの比率を単純に調整することで,MFGとMFCのどちらでも学習することができる。
論文 参考訳(メタデータ) (2020-06-24T17:45:44Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。