論文の概要: Multi-Agent Reinforcement Learning in Stochastic Networked Systems
- arxiv url: http://arxiv.org/abs/2006.06555v3
- Date: Tue, 2 Nov 2021 00:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:03:52.208491
- Title: Multi-Agent Reinforcement Learning in Stochastic Networked Systems
- Title(参考訳): 確率的ネットワークシステムにおけるマルチエージェント強化学習
- Authors: Yiheng Lin, Guannan Qu, Longbo Huang, Adam Wierman
- Abstract要約: エージェントネットワークにおけるマルチエージェント強化学習(MARL)について検討する。
目的は、世界的報酬を最大化する局所的な政策を見つけることである。
- 参考スコア(独自算出の注目度): 30.78949372661673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multi-agent reinforcement learning (MARL) in a stochastic network of
agents. The objective is to find localized policies that maximize the
(discounted) global reward. In general, scalability is a challenge in this
setting because the size of the global state/action space can be exponential in
the number of agents. Scalable algorithms are only known in cases where
dependencies are static, fixed and local, e.g., between neighbors in a fixed,
time-invariant underlying graph. In this work, we propose a Scalable Actor
Critic framework that applies in settings where the dependencies can be
non-local and stochastic, and provide a finite-time error bound that shows how
the convergence rate depends on the speed of information spread in the network.
Additionally, as a byproduct of our analysis, we obtain novel finite-time
convergence results for a general stochastic approximation scheme and for
temporal difference learning with state aggregation, which apply beyond the
setting of MARL in networked systems.
- Abstract(参考訳): エージェントの確率的ネットワークにおけるマルチエージェント強化学習(MARL)について検討した。
目的は、世界的報酬を最大化する局所的な政策を見つけることである。
一般に、グローバル状態/アクション空間のサイズはエージェントの数で指数関数的であるため、この設定ではスケーラビリティが課題である。
スケーラブルアルゴリズムは、依存関係が静的で、固定され、ローカルである場合、例えば、固定時間不変のグラフ内の隣人の間でのみ知られている。
本研究では,非局所的かつ確率的な設定で依存関係を適用可能なスケーラブルアクタ批判フレームワークを提案し,ネットワークに分散する情報の速度に収束速度がどのように依存するかを示す有限時間誤差境界を提供する。
さらに,本解析の副産物として,一般確率近似スキームと状態集約を伴う時間差学習について,ネットワークシステムにおけるmarlの設定を超えた新しい有限時間収束結果を得る。
関連論文リスト
- PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z) - Distributed Optimization, Averaging via ADMM, and Network Topology [0.0]
センサローカライゼーションの現実問題において,ネットワークトポロジと異なるアルゴリズムの収束率の関係について検討する。
また、ADMMと持ち上げマルコフ連鎖の間の興味深い関係を示すとともに、その収束を明示的に特徴づける。
論文 参考訳(メタデータ) (2020-09-05T21:44:39Z) - Local Stochastic Approximation: A Unified View of Federated Learning and
Distributed Multi-Task Reinforcement Learning Algorithms [1.52292571922932]
エージェントのネットワーク上での局所近似について検討し、エージェントのローカル演算子からなる演算子のルートを見つけることを目的とする。
我々は,各エージェントのデータをマルコフプロセスから生成し,従って依存する場合に,この手法の有限時間性能を特徴付けることに重点を置いている。
論文 参考訳(メタデータ) (2020-06-24T04:05:11Z) - Scalable Multi-Agent Reinforcement Learning for Networked Systems with
Average Reward [17.925681736096482]
マルチエージェント強化学習(MARL)が大きなスケーラビリティの問題に直面していることは長年認識されてきた。
本稿では、モデルが局所的な依存構造を示し、スケーラブルな方法で解けるような、ネットワーク化されたMARL問題のリッチなクラスを同定する。
論文 参考訳(メタデータ) (2020-06-11T17:23:17Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。