論文の概要: Distributed Cooperative Multi-Agent Reinforcement Learning with Directed
Coordination Graph
- arxiv url: http://arxiv.org/abs/2201.04962v1
- Date: Mon, 10 Jan 2022 04:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 14:00:19.787378
- Title: Distributed Cooperative Multi-Agent Reinforcement Learning with Directed
Coordination Graph
- Title(参考訳): Directed Coordination Graph を用いた分散協調型マルチエージェント強化学習
- Authors: Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty and Piyush.
K. Sharma
- Abstract要約: 既存の分散協調型マルチエージェント強化学習(MARL)フレームワークは、非指向的な協調グラフと通信グラフを前提としている。
本稿では,局所的ポリシー評価を局所値関数に基づく分散RLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 18.04270684579841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing distributed cooperative multi-agent reinforcement learning (MARL)
frameworks usually assume undirected coordination graphs and communication
graphs while estimating a global reward via consensus algorithms for policy
evaluation. Such a framework may induce expensive communication costs and
exhibit poor scalability due to requirement of global consensus. In this work,
we study MARLs with directed coordination graphs, and propose a distributed RL
algorithm where the local policy evaluations are based on local value
functions. The local value function of each agent is obtained by local
communication with its neighbors through a directed learning-induced
communication graph, without using any consensus algorithm. A zeroth-order
optimization (ZOO) approach based on parameter perturbation is employed to
achieve gradient estimation. By comparing with existing ZOO-based RL
algorithms, we show that our proposed distributed RL algorithm guarantees high
scalability. A distributed resource allocation example is shown to illustrate
the effectiveness of our algorithm.
- Abstract(参考訳): 既存の分散協調型マルチエージェント強化学習(marl)フレームワークは通常、政策評価のためのコンセンサスアルゴリズムによるグローバル報酬を推定しながら、無向コーディネーショングラフと通信グラフを想定している。
このようなフレームワークは、高価な通信コストを発生させ、グローバルコンセンサスの要求によりスケーラビリティが低下する可能性がある。
本研究では,協調グラフを用いたMARLについて検討し,局所的な政策評価を局所値関数に基づく分散RLアルゴリズムを提案する。
各エージェントの局所値関数は、コンセンサスアルゴリズムを使用せずに、有向学習誘発通信グラフを介して隣者との局所的通信によって得られる。
パラメータ摂動に基づくゼロ階最適化(ZOO)手法を用いて勾配推定を行う。
既存のZOOベースのRLアルゴリズムと比較して,提案する分散RLアルゴリズムは高いスケーラビリティを保証することを示す。
本アルゴリズムの有効性を示すために,分散リソース割り当ての例を示す。
関連論文リスト
- Decentralized Federated Learning with Gradient Tracking over Time-Varying Directed Networks [42.92231921732718]
本稿では,DSGTm-TVというコンセンサスに基づくアルゴリズムを提案する。
グラデーショントラッキングとヘビーボールモーメントを取り入れて、グローバルな目的関数を最適化する。
DSGTm-TVでは、エージェントは近隣エージェントとの情報交換を用いて局所モデルパラメータと勾配推定を更新する。
論文 参考訳(メタデータ) (2024-09-25T06:23:16Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD
for Communication Efficient Nonconvex Distributed Learning [58.79085525115987]
ローカル手法は通信時間を短縮する有望なアプローチの1つである。
局所的データセットが局所的損失の滑らかさよりも小さい場合,通信の複雑さは非局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-12T15:12:17Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Asynchronous Distributed Reinforcement Learning for LQR Control via Zeroth-Order Block Coordinate Descent [7.6860514640178]
分散強化学習のための新しいゼロ階最適化アルゴリズムを提案する。
これにより、各エージェントはコンセンサスプロトコルを使わずに、コスト評価を独立してローカル勾配を推定できる。
論文 参考訳(メタデータ) (2021-07-26T18:11:07Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文 参考訳(メタデータ) (2020-06-18T19:36:22Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - COKE: Communication-Censored Decentralized Kernel Learning [30.795725108364724]
複数の相互接続エージェントは、大域的目的関数を最小化することにより、再生カーネルヒルベルト空間上で定義された最適決定関数を学習することを目的としている。
非パラメトリックなアプローチとして、カーネルの反復学習は分散実装において大きな課題に直面します。
我々は,DKLAの通信負荷を低減し,ローカル更新が情報的でない場合を除き,エージェントがすべての一般化で送信することを防止し,通信検閲カーネル学習(COKE)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-01-28T01:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。