論文の概要: Mean-Field Approximation of Cooperative Constrained Multi-Agent Reinforcement Learning (CMARL)
- arxiv url: http://arxiv.org/abs/2209.07437v2
- Date: Tue, 10 Sep 2024 04:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 00:08:16.389543
- Title: Mean-Field Approximation of Cooperative Constrained Multi-Agent Reinforcement Learning (CMARL)
- Title(参考訳): 協調制約付きマルチエージェント強化学習(CMARL)の平均場近似
- Authors: Washim Uddin Mondal, Vaneet Aggarwal, Satish V. Ukkusuri,
- Abstract要約: 制約が存在する場合でも, MFC を用いて MARL 問題を近似できることを示す。
また、Natural Policy Gradientベースのアルゴリズムを提供し、$mathcalO(e)$の誤差で制限されたMARL問題を、$mathcalO(e-6)$の複雑さで解くことができることを示す。
- 参考スコア(独自算出の注目度): 35.18639326270473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean-Field Control (MFC) has recently been proven to be a scalable tool to approximately solve large-scale multi-agent reinforcement learning (MARL) problems. However, these studies are typically limited to unconstrained cumulative reward maximization framework. In this paper, we show that one can use the MFC approach to approximate the MARL problem even in the presence of constraints. Specifically, we prove that, an $N$-agent constrained MARL problem, with state, and action spaces of each individual agents being of sizes $|\mathcal{X}|$, and $|\mathcal{U}|$ respectively, can be approximated by an associated constrained MFC problem with an error, $e\triangleq \mathcal{O}\left([\sqrt{|\mathcal{X}|}+\sqrt{|\mathcal{U}|}]/\sqrt{N}\right)$. In a special case where the reward, cost, and state transition functions are independent of the action distribution of the population, we prove that the error can be improved to $e=\mathcal{O}(\sqrt{|\mathcal{X}|}/\sqrt{N})$. Also, we provide a Natural Policy Gradient based algorithm and prove that it can solve the constrained MARL problem within an error of $\mathcal{O}(e)$ with a sample complexity of $\mathcal{O}(e^{-6})$.
- Abstract(参考訳): Mean-Field Control (MFC)は,大規模マルチエージェント強化学習(MARL)問題を概ね解くための,スケーラブルなツールであることが最近証明されている。
しかしながら、これらの研究は通常、制約のない累積報酬最大化フレームワークに限られる。
本稿では, 制約が存在する場合でも, MFC を用いて MARL 問題を近似できることを示す。
具体的には、各エージェントがそれぞれ大きさ$|\mathcal{X}|$と$|\mathcal{U}|$の値を持つ$N$-agent制約付きMARL問題と、各エージェントのアクション空間が、関連する制約付きMFC問題([\sqrt{|\mathcal{X}|}+\sqrt{|\mathcal{U}|}]/\sqrt{N}\right)$によって誤差で近似できることを証明している。
報酬、コスト、状態遷移関数が集団の作用分布とは独立である特別な場合、誤差は$e=\mathcal{O}(\sqrt{|\mathcal{X}|}/\sqrt{N})$に改善できる。
また、Natural Policy Gradientベースのアルゴリズムを提供し、サンプル複雑性$\mathcal{O}(e^{-6})$で$\mathcal{O}(e)$の誤差で制限されたMARL問題を解くことができることを証明した。
関連論文リスト
- Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Mean-Field Control based Approximation of Multi-Agent Reinforcement
Learning in Presence of a Non-decomposable Shared Global State [37.63373979256335]
平均場制御(MFC)は、大規模マルチエージェント強化学習(MARL)問題を解決するための強力な近似ツールである。
ここでは、エージェントが共通のグローバル状態を共有するMARL設定であっても、MFCは優れた近似ツールとして適用可能であることを実証する。
論文 参考訳(メタデータ) (2023-01-13T18:55:58Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - On the Near-Optimality of Local Policies in Large Cooperative
Multi-Agent Reinforcement Learning [37.63373979256335]
協調的な$N$エージェントネットワークでは、エージェントに対してローカルに実行可能なポリシーを設計できることを示す。
また,ローカルポリシーを明示的に構築するアルゴリズムも考案した。
論文 参考訳(メタデータ) (2022-09-07T23:15:08Z) - Cryptographic Hardness of Learning Halfspaces with Massart Noise [59.8587499110224]
マスアートノイズの存在下でのPAC学習ハーフスペースの複雑さについて検討した。
我々は,最適0-1誤差が小さい場合でも,リアルタイムのMassartハーフスペース学習者が$Omega(eta)$よりも良い誤差を得られることを示す。
論文 参考訳(メタデータ) (2022-07-28T17:50:53Z) - Can Mean Field Control (MFC) Approximate Cooperative Multi Agent
Reinforcement Learning (MARL) with Non-Uniform Interaction? [33.484960394599455]
MFC(Mean-Field Control)は,MARL(Multi-Agent Reinforcement)問題を解決する強力なツールである。
本稿では、交換可能性の仮定を緩和し、任意の二重行列を介してエージェント間の相互作用をモデル化する。
各エージェントの報酬が、そのエージェントが見た平均場のアフィン関数であるなら、そのような一様でないMARL問題を近似することができる。
論文 参考訳(メタデータ) (2022-02-28T19:03:09Z) - On the Approximation of Cooperative Heterogeneous Multi-Agent
Reinforcement Learning (MARL) using Mean Field Control (MFC) [33.833747074900856]
平均場制御(MFC)は協調型マルチエージェント強化学習問題の次元性の呪いを軽減する効果的な方法である。
この作業では、$N_mathrmpop$ヘテロジニアスエージェントのコレクションを検討し、それを$K$クラスに分離することができる。
論文 参考訳(メタデータ) (2021-09-09T03:52:49Z) - Threshold Phenomena in Learning Halfspaces with Massart Noise [56.01192577666607]
ガウス境界の下でのマスアートノイズ付きmathbbRd$におけるPAC学習ハーフスペースの問題について検討する。
この結果は,Massartモデルにおける学習ハーフスペースの複雑さを定性的に特徴づけるものである。
論文 参考訳(メタデータ) (2021-08-19T16:16:48Z) - Hardness of Learning Halfspaces with Massart Noise [56.98280399449707]
我々は、マッサート(有界)ノイズの存在下でPAC学習のハーフスペースの複雑さを研究します。
情報理論上最適なエラーとSQアルゴリズムで達成できる最高のエラーとの間に指数関数的なギャップがあることを示した。
論文 参考訳(メタデータ) (2020-12-17T16:43:11Z) - Mean-Field Controls with Q-learning for Cooperative MARL: Convergence
and Complexity Analysis [7.800126150380472]
本稿では,平均場制御(MFC)手法を用いて協調的なMARLを近似する数学的枠組みを構築する。
モデルのないカーネルベースのQ-ラーニングアルゴリズム (MFC-K-Q) を提案する。
論文 参考訳(メタデータ) (2020-02-10T23:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。