論文の概要: Mean-Field Control based Approximation of Multi-Agent Reinforcement
Learning in Presence of a Non-decomposable Shared Global State
- arxiv url: http://arxiv.org/abs/2301.06889v2
- Date: Fri, 26 May 2023 20:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 02:16:11.696449
- Title: Mean-Field Control based Approximation of Multi-Agent Reinforcement
Learning in Presence of a Non-decomposable Shared Global State
- Title(参考訳): 平均場制御に基づく多エージェント強化学習の非分解性グローバル状態存在下での近似
- Authors: Washim Uddin Mondal, Vaneet Aggarwal, Satish V. Ukkusuri
- Abstract要約: 平均場制御(MFC)は、大規模マルチエージェント強化学習(MARL)問題を解決するための強力な近似ツールである。
- 参考スコア(独自算出の注目度): 37.63373979256335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean Field Control (MFC) is a powerful approximation tool to solve
large-scale Multi-Agent Reinforcement Learning (MARL) problems. However, the
success of MFC relies on the presumption that given the local states and
actions of all the agents, the next (local) states of the agents evolve
conditionally independent of each other. Here we demonstrate that even in a
MARL setting where agents share a common global state in addition to their
local states evolving conditionally independently (thus introducing a
correlation between the state transition processes of individual agents), the
MFC can still be applied as a good approximation tool. The global state is
assumed to be non-decomposable i.e., it cannot be expressed as a collection of
local states of the agents. We compute the approximation error as
$\mathcal{O}(e)$ where $e=\frac{1}{\sqrt{N}}\left[\sqrt{|\mathcal{X}|}
+\sqrt{|\mathcal{U}|}\right]$. The size of the agent population is denoted by
the term $N$, and $|\mathcal{X}|, |\mathcal{U}|$ respectively indicate the
sizes of (local) state and action spaces of individual agents. The
approximation error is found to be independent of the size of the shared global
state space. We further demonstrate that in a special case if the reward and
state transition functions are independent of the action distribution of the
population, then the error can be improved to
$e=\frac{\sqrt{|\mathcal{X}|}}{\sqrt{N}}$. Finally, we devise a Natural Policy
Gradient based algorithm that solves the MFC problem with
$\mathcal{O}(\epsilon^{-3})$ sample complexity and obtains a policy that is
within $\mathcal{O}(\max\{e,\epsilon\})$ error of the optimal MARL policy for
any $\epsilon>0$.
- Abstract(参考訳): 平均場制御(MFC)は、大規模マルチエージェント強化学習(MARL)問題を解決する強力な近似ツールである。
近似誤差を$\mathcal{O}(e)$, $e=\frac{1}{\sqrt{N}}\left[\sqrt{|\mathcal{X}|} +\sqrt{|\mathcal{U}|}\right]$と計算する。
エージェントの集団の大きさは $n$ と $|\mathcal{x}|, |\mathcal{u}|$ で表される。
さらに、特別の場合、報酬と状態遷移関数が集団の行動分布とは独立である場合、誤差を$e=\frac{\sqrt{|\mathcal{x}|}}{\sqrt{n}}$ に改善できることを示す。
最後に、mfc の問題を $\mathcal{o}(\epsilon^{-3})$ で解き、$\mathcal{o}(\max\{e,\epsilon\})$ の任意の $\epsilon>0$ に対して最適な marl ポリシーの誤差となるポリシーを得る自然なポリシー勾配に基づくアルゴリズムを考案する。
- Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [4.899818550820576]
この学習されたポリシーは、サブサンプルエージェントの数が増加するにつれて、$tildeO (1/sqrtk)$の順序で最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-12-01T03:45:17Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Mean-Field Approximation of Cooperative Constrained Multi-Agent Reinforcement Learning (CMARL) [35.18639326270473]
制約が存在する場合でも, MFC を用いて MARL 問題を近似できることを示す。
また、Natural Policy Gradientベースのアルゴリズムを提供し、$mathcalO(e)$の誤差で制限されたMARL問題を、$mathcalO(e-6)$の複雑さで解くことができることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:33:38Z) - On the Near-Optimality of Local Policies in Large Cooperative
Multi-Agent Reinforcement Learning [37.63373979256335]
論文 参考訳(メタデータ) (2022-09-07T23:15:08Z) - Can Mean Field Control (MFC) Approximate Cooperative Multi Agent
Reinforcement Learning (MARL) with Non-Uniform Interaction? [33.484960394599455]
MFC(Mean-Field Control)は,MARL(Multi-Agent Reinforcement)問題を解決する強力なツールである。
論文 参考訳(メタデータ) (2022-02-28T19:03:09Z) - On the Approximation of Cooperative Heterogeneous Multi-Agent
Reinforcement Learning (MARL) using Mean Field Control (MFC) [33.833747074900856]
論文 参考訳(メタデータ) (2021-09-09T03:52:49Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)