論文の概要: Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.11692v1
- Date: Thu, 23 Sep 2021 23:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 02:38:57.569137
- Title: Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning
- Title(参考訳): 多エージェント強化学習における自然政策の次元自由率
- Authors: Carlo Alfano, Patrick Rebeschini
- Abstract要約: 協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 22.310861786709538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning is a decentralized paradigm in
sequential decision making where agents distributed over a network iteratively
collaborate with neighbors to maximize global (network-wide) notions of
rewards. Exact computations typically involve a complexity that scales
exponentially with the number of agents. To address this curse of
dimensionality, we design a scalable algorithm based on the Natural Policy
Gradient framework that uses local information and only requires agents to
communicate with neighbors within a certain range. Under standard assumptions
on the spatial decay of correlations for the transition dynamics of the
underlying Markov process and the localized learning policy, we show that our
algorithm converges to the globally optimal policy with a dimension-free
statistical and computational complexity, incurring a localization error that
does not depend on the number of agents and converges to zero exponentially
fast as a function of the range of communication.
- Abstract(参考訳): 協調型マルチエージェント強化学習(collaborative multi-agent reinforcement learning)は、ネットワーク上に分散したエージェントが隣人と反復的に協力し、グローバル(ネットワーク全体)の報酬概念を最大化する、シーケンシャル意思決定における分散パラダイムである。
正確な計算は通常、エージェントの数に指数関数的にスケールする複雑性を伴う。
この次元の呪いに対処するために,我々は,局所情報を使用し,特定の範囲内の近隣者とのみ通信を行う自然政策勾配フレームワークに基づくスケーラブルなアルゴリズムを設計した。
基礎となるマルコフ過程の遷移力学と局所学習ポリシーの相関関係の空間的減衰に関する標準的な仮定の下で、我々のアルゴリズムは、次元のない統計的および計算の複雑さで大域的最適ポリシーに収束し、エージェントの数に依存しない局所化誤差を生じ、通信範囲の関数として指数関数的に高速に収束することを示す。
関連論文リスト
- Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - The Power of Populations in Decentralized Bandits [45.6131675239826]
分散GOSSIPモデルにおける協調的マルチエージェントバンディット設定について検討する。
各ラウンドにおいて、各$n$エージェントは共通の集合からアクションを選択し、アクションの対応する報酬を観察し、次にランダムに選択された1つの隣人と情報を交換する。
この設定では,各エージェントが一定メモリしか持たないという制約の下で,完全分散ローカルアルゴリズムのいくつかのファミリを導入・解析する。
論文 参考訳(メタデータ) (2023-06-14T17:59:15Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Distributed Cooperative Multi-Agent Reinforcement Learning with Directed
Coordination Graph [18.04270684579841]
既存の分散協調型マルチエージェント強化学習(MARL)フレームワークは、非指向的な協調グラフと通信グラフを前提としている。
本稿では,局所的ポリシー評価を局所値関数に基づく分散RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-10T04:14:46Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Multi-Agent Reinforcement Learning in Stochastic Networked Systems [30.78949372661673]
エージェントネットワークにおけるマルチエージェント強化学習(MARL)について検討する。
目的は、世界的報酬を最大化する局所的な政策を見つけることである。
論文 参考訳(メタデータ) (2020-06-11T16:08:16Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。