論文の概要: Distributed Q-Learning with State Tracking for Multi-agent Networked
Control
- arxiv url: http://arxiv.org/abs/2012.12383v1
- Date: Tue, 22 Dec 2020 22:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:23:58.147609
- Title: Distributed Q-Learning with State Tracking for Multi-agent Networked
Control
- Title(参考訳): マルチエージェントネットワーク制御のための状態追跡を用いた分散Q-Learning
- Authors: Hang Wang, Sen Lin, Hamid Jafarkhani, Junshan Zhang
- Abstract要約: 本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
- 参考スコア(独自算出の注目度): 61.63442612938345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies distributed Q-learning for Linear Quadratic Regulator
(LQR) in a multi-agent network. The existing results often assume that agents
can observe the global system state, which may be infeasible in large-scale
systems due to privacy concerns or communication constraints. In this work, we
consider a setting with unknown system models and no centralized coordinator.
We devise a state tracking (ST) based Q-learning algorithm to design optimal
controllers for agents. Specifically, we assume that agents maintain local
estimates of the global state based on their local information and
communications with neighbors. At each step, every agent updates its local
global state estimation, based on which it solves an approximate Q-factor
locally through policy iteration. Assuming decaying injected excitation noise
during the policy evaluation, we prove that the local estimation converges to
the true global state, and establish the convergence of the proposed
distributed ST-based Q-learning algorithm. The experimental studies corroborate
our theoretical results by showing that our proposed method achieves comparable
performance with the centralized case.
- Abstract(参考訳): 本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
既存の結果は、プライバシの懸念や通信上の制約のために大規模システムでは実現不可能なグローバルシステム状態をエージェントが監視できると仮定することが多い。
本研究では,未知のシステムモデルと集中型コーディネータを含まない設定について考察する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
具体的には、エージェントが地域情報と隣人とのコミュニケーションに基づいて、グローバルステートのローカルな見積を維持できると仮定する。
各ステップにおいて、各エージェントは、ポリシーイテレーションを通じて近似q因子を局所的に解くことで、ローカルなグローバル状態推定を更新する。
政策評価中に減衰した励起ノイズを仮定すると、局所的な推定が真のグローバル状態に収束し、提案した分散STベースのQ-ラーニングアルゴリズムの収束を確立する。
実験により,提案手法が集中型の場合と同等の性能が得られることを示した。
関連論文リスト
- The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond [44.43850105124659]
地域データだけで訓練された局所的なQ-推定を周期的に集約することで、最適なQ-関数を学習することを目的とした、連合型Q-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-行動ペアに対して,重み付けを重要視する新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:18:59Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Policy Evaluation in Decentralized POMDPs with Belief Sharing [39.550233049869036]
エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
論文 参考訳(メタデータ) (2023-02-08T15:54:15Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network
Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。
鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文 参考訳(メタデータ) (2021-08-05T16:52:36Z) - Multi-Agent Reinforcement Learning in Stochastic Networked Systems [30.78949372661673]
エージェントネットワークにおけるマルチエージェント強化学習(MARL)について検討する。
目的は、世界的報酬を最大化する局所的な政策を見つけることである。
論文 参考訳(メタデータ) (2020-06-11T16:08:16Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。