論文の概要: Federated Control in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2405.04026v1
- Date: Tue, 7 May 2024 05:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:18:57.094296
- Title: Federated Control in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるフェデレート制御
- Authors: Hao Jin, Yang Peng, Liangyu Zhang, Zhihua Zhang,
- Abstract要約: マルコフ決定過程におけるフェデレーション制御の問題点について検討する。
本稿では,エージェントの制限領域に関する知識を定期的に集約する新しい通信プロトコルを提案する。
特に、FedQ-Xは、作業負荷がエージェント間で均一に分散される場合、サンプルの複雑さの観点から線形スピードアップを楽しむことが示されている。
- 参考スコア(独自算出の注目度): 23.086904790247576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study problems of federated control in Markov Decision Processes. To solve an MDP with large state space, multiple learning agents are introduced to collaboratively learn its optimal policy without communication of locally collected experience. In our settings, these agents have limited capabilities, which means they are restricted within different regions of the overall state space during the training process. In face of the difference among restricted regions, we firstly introduce concepts of leakage probabilities to understand how such heterogeneity affects the learning process, and then propose a novel communication protocol that we call Federated-Q protocol (FedQ), which periodically aggregates agents' knowledge of their restricted regions and accordingly modifies their learning problems for further training. In terms of theoretical analysis, we justify the correctness of FedQ as a communication protocol, then give a general result on sample complexity of derived algorithms FedQ-X with the RL oracle , and finally conduct a thorough study on the sample complexity of FedQ-SynQ. Specifically, FedQ-X has been shown to enjoy linear speedup in terms of sample complexity when workload is uniformly distributed among agents. Moreover, we carry out experiments in various environments to justify the efficiency of our methods.
- Abstract(参考訳): マルコフ決定過程におけるフェデレーション制御の問題点について検討する。
大規模な状態空間を持つMDPを解決するために、複数の学習エージェントを導入して、局所的に収集された経験を伝達することなく、最適なポリシーを協調的に学習する。
私たちの設定では、これらのエージェントは限られた能力を持ち、トレーニングプロセス中に状態空間全体の異なる領域に制限される。
制限領域の違いに直面して、まず、そのような不均一性が学習プロセスにどのように影響するかを理解するための漏洩確率の概念を導入し、次に、エージェントの制限領域に関する知識を定期的に集約し、さらなる訓練のために学習問題を修正したフェデレーションQプロトコル(FedQ)と呼ばれる新しい通信プロトコルを提案する。
理論的解析の観点では、通信プロトコルとしてのFedQの正しさを正当化し、導出アルゴリズムFedQ-XとRLオラクルとのサンプル複雑性に関する一般的な結果を与え、最終的にFedQ-SynQのサンプル複雑性に関する詳細な研究を行う。
特に、FedQ-Xは、作業負荷がエージェント間で均一に分散される場合、サンプルの複雑さの観点から線形スピードアップを楽しむことが示されている。
さらに,本手法の効率を正当化するために,様々な環境で実験を行う。
関連論文リスト
- The Sample-Communication Complexity Trade-off in Federated Q-Learning [31.644851830271755]
広範に使われている間欠的通信アルゴリズムにおけるサンプルと通信複雑性のトレードオフについて検討する。
我々は、注文最適サンプルと通信の複雑さを同時に達成する最初のフェデレーションQ-ラーニングアルゴリズムであるFed-DVR-Qを提案する。
論文 参考訳(メタデータ) (2024-08-30T03:03:03Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning [8.632943870358627]
フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。
本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。
我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-01-27T02:43:45Z) - Federated Q-Learning: Linear Regret Speedup with Low Communication Cost [4.380110270510058]
本稿では,FedQ-HoeffdingとFedQ-Bernsteinという2つの連合Qラーニングアルゴリズムを提案する。
時間的地平線が十分に大きい場合, 対応する全後悔は, 単エージェントと比較して直線的なスピードアップを達成することを示す。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構に依存します。
論文 参考訳(メタデータ) (2023-12-22T19:14:09Z) - The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond [44.43850105124659]
地域データだけで訓練された局所的なQ-推定を周期的に集約することで、最適なQ-関数を学習することを目的とした、連合型Q-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-行動ペアに対して,重み付けを重要視する新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:18:59Z) - Federated TD Learning over Finite-Rate Erasure Channels: Linear Speedup
under Markovian Sampling [17.870440210358847]
エージェントが中央アグリゲータを介して通信し、共通ポリシの評価を迅速化するフェデレートポリシ評価問題について検討する。
FLにおける典型的な通信制約を捉えるために、ベルヌーイ消去モデルに基づいてパケットをドロップできる有限容量アップリンクチャネルを考える。
本研究は, マルチエージェントおよびフェデレーション強化学習における非漸近的効果の分析を初めて行ったものである。
論文 参考訳(メタデータ) (2023-05-14T08:48:02Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。