論文の概要: Can Mean Field Control (MFC) Approximate Cooperative Multi Agent
Reinforcement Learning (MARL) with Non-Uniform Interaction?
- arxiv url: http://arxiv.org/abs/2203.00035v1
- Date: Mon, 28 Feb 2022 19:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 15:45:34.186147
- Title: Can Mean Field Control (MFC) Approximate Cooperative Multi Agent
Reinforcement Learning (MARL) with Non-Uniform Interaction?
- Title(参考訳): 平均場制御 (MFC) は非一様相互作用を伴う協調多エージェント強化学習 (MARL) を可能か?
- Authors: Washim Uddin Mondal, Vaneet Aggarwal, and Satish V. Ukkusuri
- Abstract要約: MFC(Mean-Field Control)は,MARL(Multi-Agent Reinforcement)問題を解決する強力なツールである。
本稿では、交換可能性の仮定を緩和し、任意の二重行列を介してエージェント間の相互作用をモデル化する。
各エージェントの報酬が、そのエージェントが見た平均場のアフィン関数であるなら、そのような一様でないMARL問題を近似することができる。
- 参考スコア(独自算出の注目度): 33.484960394599455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean-Field Control (MFC) is a powerful tool to solve Multi-Agent
Reinforcement Learning (MARL) problems. Recent studies have shown that MFC can
well-approximate MARL when the population size is large and the agents are
exchangeable. Unfortunately, the presumption of exchangeability implies that
all agents uniformly interact with one another which is not true in many
practical scenarios. In this article, we relax the assumption of
exchangeability and model the interaction between agents via an arbitrary
doubly stochastic matrix. As a result, in our framework, the mean-field `seen'
by different agents are different. We prove that, if the reward of each agent
is an affine function of the mean-field seen by that agent, then one can
approximate such a non-uniform MARL problem via its associated MFC problem
within an error of $e=\mathcal{O}(\frac{1}{\sqrt{N}}[\sqrt{|\mathcal{X}|} +
\sqrt{|\mathcal{U}|}])$ where $N$ is the population size and $|\mathcal{X}|$,
$|\mathcal{U}|$ are the sizes of state and action spaces respectively. Finally,
we develop a Natural Policy Gradient (NPG) algorithm that can provide a
solution to the non-uniform MARL with an error
$\mathcal{O}(\max\{e,\epsilon\})$ and a sample complexity of
$\mathcal{O}(\epsilon^{-3})$ for any $\epsilon >0$.
- Abstract(参考訳): 平均場制御(MFC)はマルチエージェント強化学習(MARL)問題を解決する強力なツールである。
近年の研究では、MFCが個体数が大きく、薬剤が交換可能である場合、MARLを適切に適用できることが示されている。
残念ながら、交換可能性の仮定は全てのエージェントが互いに一様に相互作用することを意味するが、多くの実用的なシナリオでは当てはまらない。
本稿では,交換可能性の仮定を緩和し,任意の二重確率行列を介してエージェント間の相互作用をモデル化する。
結果として、我々のフレームワークでは、異なるエージェントによる平均フィールド ‘seen' が異なる。
各エージェントの報酬が、そのエージェントが見た平均フィールドのアフィン関数であるなら、それらの非一様マール問題を、関連するmfc問題を通じて近似することができる。 $e=\mathcal{o}(\frac{1}{\sqrt{n}}[\sqrt{|\mathcal{x}|} + \sqrt{|\mathcal{u}|})$ ここで、$n$ は人口の大きさであり、$|\mathcal{x}|$, $|\mathcal{u}|$$$ はそれぞれ状態空間と行動空間の大きさである。
最後に、誤差$\mathcal{O}(\max\{e,\epsilon\})$と、任意の$\epsilon > 0$に対して$\mathcal{O}(\epsilon^{-3})$のサンプル複雑性を持つ非一様MARLに対する解を提供することができるNatural Policy Gradient (NPG)アルゴリズムを開発する。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Refined Sample Complexity for Markov Games with Independent Linear Function Approximation [49.5660193419984]
マルコフゲーム(MG)はマルチエージェント強化学習(MARL)の重要なモデルである
本稿では、WangらによるAVLPRフレームワークを改良し(2023年)、最適部分ギャップの悲観的推定を設計する。
マルチエージェントの呪いに取り組み、最適な$O(T-1/2)収束率を達成し、同時に$textpoly(A_max)$依存性を避ける最初のアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-02-11T01:51:15Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Mean-Field Control based Approximation of Multi-Agent Reinforcement
Learning in Presence of a Non-decomposable Shared Global State [37.63373979256335]
平均場制御(MFC)は、大規模マルチエージェント強化学習(MARL)問題を解決するための強力な近似ツールである。
ここでは、エージェントが共通のグローバル状態を共有するMARL設定であっても、MFCは優れた近似ツールとして適用可能であることを実証する。
論文 参考訳(メタデータ) (2023-01-13T18:55:58Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Mean-Field Approximation of Cooperative Constrained Multi-Agent Reinforcement Learning (CMARL) [35.18639326270473]
制約が存在する場合でも, MFC を用いて MARL 問題を近似できることを示す。
また、Natural Policy Gradientベースのアルゴリズムを提供し、$mathcalO(e)$の誤差で制限されたMARL問題を、$mathcalO(e-6)$の複雑さで解くことができることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:33:38Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning [3.655021726150368]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)では、複数のエージェントが共通の環境と相互作用し、シーケンシャルな意思決定において共有問題を解く。
我々は、MARLで有用な分散非線形近似スキームの族を反復する新しい法則を導出する。
論文 参考訳(メタデータ) (2021-10-27T08:01:17Z) - On the Approximation of Cooperative Heterogeneous Multi-Agent
Reinforcement Learning (MARL) using Mean Field Control (MFC) [33.833747074900856]
平均場制御(MFC)は協調型マルチエージェント強化学習問題の次元性の呪いを軽減する効果的な方法である。
この作業では、$N_mathrmpop$ヘテロジニアスエージェントのコレクションを検討し、それを$K$クラスに分離することができる。
論文 参考訳(メタデータ) (2021-09-09T03:52:49Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Mean-Field Controls with Q-learning for Cooperative MARL: Convergence
and Complexity Analysis [7.800126150380472]
本稿では,平均場制御(MFC)手法を用いて協調的なMARLを近似する数学的枠組みを構築する。
モデルのないカーネルベースのQ-ラーニングアルゴリズム (MFC-K-Q) を提案する。
論文 参考訳(メタデータ) (2020-02-10T23:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。