論文の概要: Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.00661v2
- Date: Wed, 29 Jan 2025 22:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:16.588558
- Title: Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための平均フィールドサンプリング
- Authors: Emile Anand, Ishani Karmarkar, Guannan Qu,
- Abstract要約: マルチエージェント強化学習のための新しいアルゴリズムを提案する。
この学習されたポリシーは、サブサンプルエージェントの数が増加するにつれて、$tildeO (1/sqrtk)$の順序で最適ポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 4.899818550820576
- License:
- Abstract: Designing efficient algorithms for multi-agent reinforcement learning (MARL) is fundamentally challenging because the size of the joint state and action spaces grows exponentially in the number of agents. These difficulties are exacerbated when balancing sequential global decision-making with local agent interactions. In this work, we propose a new algorithm $\texttt{SUBSAMPLE-MFQ}$ ($\textbf{Subsample}$-$\textbf{M}$ean-$\textbf{F}$ield-$\textbf{Q}$-learning) and a decentralized randomized policy for a system with $n$ agents. For $k\leq n$, our algorithm learns a policy for the system in time polynomial in $k$. We show that this learned policy converges to the optimal policy on the order of $\tilde{O}(1/\sqrt{k})$ as the number of subsampled agents $k$ increases. We empirically validate our method in Gaussian squeeze and global exploration settings.
- Abstract(参考訳): 多エージェント強化学習 (MARL) のための効率的なアルゴリズムの設計は, エージェントの数が指数関数的に増加するため, 基本的には困難である。
これらの困難は、連続的なグローバルな意思決定とローカルエージェントの相互作用のバランスをとることで悪化する。
本研究では,新しいアルゴリズムである$\textbf{SUBSAMPLE-MFQ}$$-$\textbf{M}$ean-$\textbf{F}$ield-$\textbf{Q}$-learning)と,$n$エージェントを持つシステムの分散ランダム化ポリシを提案する。
k\leq n$の場合、我々のアルゴリズムは時間多項式におけるシステムのポリシーを$k$で学習する。
この学習されたポリシーは$\tilde{O}(1/\sqrt{k})$の順序の最適ポリシーに収束することを示す。
我々はガウシアン・シュレッシャーとグローバル・サーベイ・セッティングの手法を実証的に検証した。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Efficient Reinforcement Learning for Global Decision Making in the Presence of Local Agents at Scale [5.3526997662068085]
本研究では,地域エージェントの存在下でのグローバル意思決定のための強化学習について検討する。
この環境では、状態空間のサイズのため、スケーラビリティは長年にわたる課題でした。
この学習されたポリシーは、サブサンプリングエージェントの数が増加するにつれて、$tildeO (1/sqrtk+epsilon_k,m)$の順序で最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-03-01T01:49:57Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Cooperative Multi-Agent Reinforcement Learning: Asynchronous
Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。
本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。
我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文 参考訳(メタデータ) (2023-05-10T20:29:29Z) - Oracle-free Reinforcement Learning in Mean-Field Games along a Single
Sample Path [5.926203312586109]
平均フィールドゲーム(MFG)におけるオンライン強化学習の検討
汎用エージェントの単一サンプルパスを用いて平均場平衡(MFE)を近似するアルゴリズムを開発した。
多様なシナリオにおいて,サンドボックス学習アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-08-24T16:22:31Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。