論文の概要: The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond
- arxiv url: http://arxiv.org/abs/2305.10697v2
- Date: Tue, 12 Dec 2023 21:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:51:42.147548
- Title: The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond
- Title(参考訳): フェデレーションQ-Learningにおける不均一性の祝福:線形スピードアップと超越
- Authors: Jiin Woo, Gauri Joshi, Yuejie Chi
- Abstract要約: 地域データだけで訓練された局所的なQ-推定を周期的に集約することで、最適なQ-関数を学習することを目的とした、連合型Q-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-行動ペアに対して,重み付けを重要視する新しいQ-ラーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 44.43850105124659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When the data used for reinforcement learning (RL) are collected by multiple
agents in a distributed manner, federated versions of RL algorithms allow
collaborative learning without the need for agents to share their local data.
In this paper, we consider federated Q-learning, which aims to learn an optimal
Q-function by periodically aggregating local Q-estimates trained on local data
alone. Focusing on infinite-horizon tabular Markov decision processes, we
provide sample complexity guarantees for both the synchronous and asynchronous
variants of federated Q-learning. In both cases, our bounds exhibit a linear
speedup with respect to the number of agents and near-optimal dependencies on
other salient problem parameters.
In the asynchronous setting, existing analyses of federated Q-learning, which
adopt an equally weighted averaging of local Q-estimates, require that every
agent covers the entire state-action space. In contrast, our improved sample
complexity scales inverse proportionally to the minimum entry of the average
stationary state-action occupancy distribution of all agents, thus only
requiring the agents to collectively cover the entire state-action space,
unveiling the blessing of heterogeneity in enabling collaborative learning by
relaxing the coverage requirement of the single-agent case. However, its sample
complexity still suffers when the local trajectories are highly heterogeneous.
In response, we propose a novel federated Q-learning algorithm with importance
averaging, giving larger weights to more frequently visited state-action pairs,
which achieves a robust linear speedup as if all trajectories are centrally
processed, regardless of the heterogeneity of local behavior policies.
- Abstract(参考訳): 強化学習(RL)に使用されるデータが分散的に複数のエージェントによって収集される場合、RLアルゴリズムのフェデレーションされたバージョンは、エージェントがローカルデータを共有することなく協調学習を可能にする。
本稿では,ローカルデータだけで訓練されたローカルQ推定値を定期的に集約することで,最適なQ関数を学習することを目的とした,連合型Q-ラーニングについて考察する。
無限ホライゾン表型マルコフ決定プロセスに着目し,同期型および非同期型q-learningの両方に対して,サンプル複雑性の保証を行う。
どちらの場合も、我々の境界はエージェントの数と他の有意な問題パラメータへのほぼ最適依存関係に関して線形スピードアップを示す。
非同期環境では、局所的なQ-推定を等しく重み付けしたQ-ラーニングの既存の分析では、各エージェントが状態-作用空間全体をカバーする必要がある。
対照的に, 改良されたサンプル複雑性は, 全エージェントの平均定常状態行動占有率分布の最小値に反比例してスケールし, エージェントが一括して状態行動空間全体をカバーし, 単一エージェントの場合のカバレッジ要件を緩和することで協調学習を可能にする不均一性を顕在化する。
しかし、そのサンプルの複雑さは、局所的な軌道が非常に不均一であるときに依然として悩む。
そこで本研究では,より頻繁に訪れる状態-行動ペアに対してより大きな重みを与えるとともに,局所的な行動方針の不均一性に関わらず,全ての軌道が中央に処理されているかのように頑健な線形高速化を実現する,重要度の高い新しいQ-ラーニングアルゴリズムを提案する。
関連論文リスト
- On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations [15.549340968605234]
フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:42:43Z) - Federated Control in Markov Decision Processes [23.086904790247576]
マルコフ決定過程におけるフェデレーション制御の問題点について検討する。
本稿では,エージェントの制限領域に関する知識を定期的に集約する新しい通信プロトコルを提案する。
特に、FedQ-Xは、作業負荷がエージェント間で均一に分散される場合、サンプルの複雑さの観点から線形スピードアップを楽しむことが示されている。
論文 参考訳(メタデータ) (2024-05-07T05:59:10Z) - Federated Offline Reinforcement Learning: Collaborative Single-Policy
Coverage Suffices [44.97418712091146]
オフライン強化学習(RL)は、オフラインデータを使用して最適なポリシーを学習しようとする。
この研究は、複数のエージェントでオフラインデータセットを協調的に活用することを目的とした、オフラインRLのためのフェデレーション学習のメリットを探求する。
FedLCB-Qは、フェデレートされたオフラインRLに適したモデルフリーQラーニングアルゴリズムの亜種である。
論文 参考訳(メタデータ) (2024-02-08T18:09:17Z) - Federated Q-Learning: Linear Regret Speedup with Low Communication Cost [4.380110270510058]
本稿では,FedQ-HoeffdingとFedQ-Bernsteinという2つの連合Qラーニングアルゴリズムを提案する。
時間的地平線が十分に大きい場合, 対応する全後悔は, 単エージェントと比較して直線的なスピードアップを達成することを示す。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構に依存します。
論文 参考訳(メタデータ) (2023-12-22T19:14:09Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。