論文の概要: Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.11692v1
- Date: Thu, 23 Sep 2021 23:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 02:38:57.569137
- Title: Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning
- Title(参考訳): 多エージェント強化学習における自然政策の次元自由率
- Authors: Carlo Alfano, Patrick Rebeschini
- Abstract要約: 協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 22.310861786709538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning is a decentralized paradigm in
sequential decision making where agents distributed over a network iteratively
collaborate with neighbors to maximize global (network-wide) notions of
rewards. Exact computations typically involve a complexity that scales
exponentially with the number of agents. To address this curse of
dimensionality, we design a scalable algorithm based on the Natural Policy
Gradient framework that uses local information and only requires agents to
communicate with neighbors within a certain range. Under standard assumptions
on the spatial decay of correlations for the transition dynamics of the
underlying Markov process and the localized learning policy, we show that our
algorithm converges to the globally optimal policy with a dimension-free
statistical and computational complexity, incurring a localization error that
does not depend on the number of agents and converges to zero exponentially
fast as a function of the range of communication.
- Abstract(参考訳): 協調型マルチエージェント強化学習(collaborative multi-agent reinforcement learning)は、ネットワーク上に分散したエージェントが隣人と反復的に協力し、グローバル(ネットワーク全体)の報酬概念を最大化する、シーケンシャル意思決定における分散パラダイムである。
正確な計算は通常、エージェントの数に指数関数的にスケールする複雑性を伴う。
この次元の呪いに対処するために,我々は,局所情報を使用し,特定の範囲内の近隣者とのみ通信を行う自然政策勾配フレームワークに基づくスケーラブルなアルゴリズムを設計した。
基礎となるマルコフ過程の遷移力学と局所学習ポリシーの相関関係の空間的減衰に関する標準的な仮定の下で、我々のアルゴリズムは、次元のない統計的および計算の複雑さで大域的最適ポリシーに収束し、エージェントの数に依存しない局所化誤差を生じ、通信範囲の関数として指数関数的に高速に収束することを示す。
関連論文リスト
- Performance-Aware Self-Configurable Multi-Agent Networks: A Distributed Submodular Approach for Simultaneous Coordination and Network Design [3.5527561584422465]
本稿では、AlterNAting Coordination and Network-Design Algorithm(Anaconda)を紹介する。
Anacondaはスケーラブルなアルゴリズムで、ほぼ最適性を保証する。
地域モニタリングのシミュレーションシナリオを実演し,それを最先端のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2024-09-02T18:11:33Z) - Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.01527054553122]
分散エージェントは、経験的システムの単一かつ非エポゾディックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
また, エージェントが局所的な周辺地域に基づいて, グローバルな経験分布を推定できる新しいアルゴリズムも提供する。
論文 参考訳(メタデータ) (2024-08-21T13:32:46Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Distributed Cooperative Multi-Agent Reinforcement Learning with Directed
Coordination Graph [18.04270684579841]
既存の分散協調型マルチエージェント強化学習(MARL)フレームワークは、非指向的な協調グラフと通信グラフを前提としている。
本稿では,局所的ポリシー評価を局所値関数に基づく分散RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-10T04:14:46Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Multi-Agent Reinforcement Learning in Stochastic Networked Systems [30.78949372661673]
エージェントネットワークにおけるマルチエージェント強化学習(MARL)について検討する。
目的は、世界的報酬を最大化する局所的な政策を見つけることである。
論文 参考訳(メタデータ) (2020-06-11T16:08:16Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。