論文の概要: Distributed Q-Learning with State Tracking for Multi-agent Networked
Control
- arxiv url: http://arxiv.org/abs/2012.12383v1
- Date: Tue, 22 Dec 2020 22:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:23:58.147609
- Title: Distributed Q-Learning with State Tracking for Multi-agent Networked
Control
- Title(参考訳): マルチエージェントネットワーク制御のための状態追跡を用いた分散Q-Learning
- Authors: Hang Wang, Sen Lin, Hamid Jafarkhani, Junshan Zhang
- Abstract要約: 本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
- 参考スコア(独自算出の注目度): 61.63442612938345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies distributed Q-learning for Linear Quadratic Regulator
(LQR) in a multi-agent network. The existing results often assume that agents
can observe the global system state, which may be infeasible in large-scale
systems due to privacy concerns or communication constraints. In this work, we
consider a setting with unknown system models and no centralized coordinator.
We devise a state tracking (ST) based Q-learning algorithm to design optimal
controllers for agents. Specifically, we assume that agents maintain local
estimates of the global state based on their local information and
communications with neighbors. At each step, every agent updates its local
global state estimation, based on which it solves an approximate Q-factor
locally through policy iteration. Assuming decaying injected excitation noise
during the policy evaluation, we prove that the local estimation converges to
the true global state, and establish the convergence of the proposed
distributed ST-based Q-learning algorithm. The experimental studies corroborate
our theoretical results by showing that our proposed method achieves comparable
performance with the centralized case.
- Abstract(参考訳): 本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
既存の結果は、プライバシの懸念や通信上の制約のために大規模システムでは実現不可能なグローバルシステム状態をエージェントが監視できると仮定することが多い。
本研究では,未知のシステムモデルと集中型コーディネータを含まない設定について考察する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
具体的には、エージェントが地域情報と隣人とのコミュニケーションに基づいて、グローバルステートのローカルな見積を維持できると仮定する。
各ステップにおいて、各エージェントは、ポリシーイテレーションを通じて近似q因子を局所的に解くことで、ローカルなグローバル状態推定を更新する。
政策評価中に減衰した励起ノイズを仮定すると、局所的な推定が真のグローバル状態に収束し、提案した分散STベースのQ-ラーニングアルゴリズムの収束を確立する。
実験により,提案手法が集中型の場合と同等の性能が得られることを示した。
関連論文リスト
- Federated Reinforcement Learning: Linear Speedup Under Markovian
Sampling [17.943014287720395]
我々は,複数のエージェントが協調してグローバルモデルを学ぶ,連合型強化学習フレームワークを検討する。
本稿では,オンラインTD,オフラインTD,Qラーニングのフェデレーションバージョンを提案し,その収束度を解析する。
我々はマルコフ雑音と複数の局所的な更新を最初に検討し、エージェント数に関して線形収束速度を証明した。
論文 参考訳(メタデータ) (2022-06-21T08:39:12Z) - Revisiting Communication-Efficient Federated Learning with Balanced
Global and Local Updates [14.851898446967672]
本研究では,地域研修の数とグローバルアグリゲーションの数との最適なトレードオフを調査し,分析する。
提案手法は予測精度の点で性能が向上し,ベースライン方式よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2022-05-03T13:05:26Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Distributed Cooperative Multi-Agent Reinforcement Learning with Directed
Coordination Graph [18.04270684579841]
既存の分散協調型マルチエージェント強化学習(MARL)フレームワークは、非指向的な協調グラフと通信グラフを前提としている。
本稿では,局所的ポリシー評価を局所値関数に基づく分散RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-10T04:14:46Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - Deep Reinforcement Learning for Wireless Scheduling in Distributed
Networked Control [56.77877237894372]
この研究は、分散植物、センサー、アクチュエータ、コントローラを備えた完全な分散WNCSを考慮し、限られた数の周波数チャネルを共有する。
最適な送信スケジューリング問題を決定プロセス問題に定式化し、それを解くための深層強化学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-09-26T11:27:12Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network
Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。
鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文 参考訳(メタデータ) (2021-08-05T16:52:36Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [128.49714835689102]
問題データが多くのデバイスに分散している分散分散変分不等式について考察する。
本稿では,任意の時間変化のあるネットワークトポロジ上で,参加するデバイスが通信可能な,段階外に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。