論文の概要: The Blessing of Heterogeneity in Federated Q-learning: Linear Speedup
and Beyond
- arxiv url: http://arxiv.org/abs/2305.10697v1
- Date: Thu, 18 May 2023 04:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:01:48.655859
- Title: The Blessing of Heterogeneity in Federated Q-learning: Linear Speedup
and Beyond
- Title(参考訳): フェデレーションq学習における不均一性の祝福--線形スピードアップとbeyond
- Authors: Jiin Woo, Gauri Joshi, Yuejie Chi
- Abstract要約: 本稿では,ローカルデータだけで訓練されたローカルQ推定値を周期的に集約することで,最適なQ関数を学習するフェデレーションQ-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-作用対に重みを与える,新しい重要平均化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 37.06008093639672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When the data used for reinforcement learning (RL) are collected by multiple
agents in a distributed manner, federated versions of RL algorithms allow
collaborative learning without the need of sharing local data. In this paper,
we consider federated Q-learning, which aims to learn an optimal Q-function by
periodically aggregating local Q-estimates trained on local data alone.
Focusing on infinite-horizon tabular Markov decision processes, we provide
sample complexity guarantees for both the synchronous and asynchronous variants
of federated Q-learning. In both cases, our bounds exhibit a linear speedup
with respect to the number of agents and sharper dependencies on other salient
problem parameters. Moreover, existing approaches to federated Q-learning adopt
an equally-weighted averaging of local Q-estimates, which can be highly
sub-optimal in the asynchronous setting since the local trajectories can be
highly heterogeneous due to different local behavior policies. Existing sample
complexity scales inverse proportionally to the minimum entry of the stationary
state-action occupancy distributions over all agents, requiring that every
agent covers the entire state-action space. Instead, we propose a novel
importance averaging algorithm, giving larger weights to more frequently
visited state-action pairs. The improved sample complexity scales inverse
proportionally to the minimum entry of the average stationary state-action
occupancy distribution of all agents, thus only requiring the agents
collectively cover the entire state-action space, unveiling the blessing of
heterogeneity.
- Abstract(参考訳): 強化学習(RL)に使用されるデータが分散的に複数のエージェントによって収集される場合、RLアルゴリズムのフェデレーションされたバージョンは、ローカルデータを共有せずに協調学習を可能にする。
本稿では,ローカルデータだけで訓練されたローカルQ推定値を定期的に集約することで,最適なQ関数を学習することを目的とした,連合型Q-ラーニングについて考察する。
無限ホライゾン表型マルコフ決定プロセスに着目し,同期型および非同期型q-learningの両方に対して,サンプル複雑性の保証を行う。
いずれの場合においても,エージェント数や他の有意な問題パラメータに対する依存関係のシャープ化に関して,境界は線形速度アップを示す。
さらに、フェデレートされたq-learningに対する既存のアプローチでは、局所的なq-estimatesの平均値が等しく重み付けされている。
既存のサンプル複雑性は、すべてのエージェントに対する定常状態アクション占有分布の最小入力に比例してスケールし、すべてのエージェントが状態アクション空間全体をカバーする必要がある。
代わりに、より頻繁に訪れる状態-行動ペアにより大きな重みを与える、新しい重要性平均化アルゴリズムを提案する。
改良されたサンプル複雑性は、全てのエージェントの平均定常状態-作用占有分布の最小エントリーに比例してスケールし、従って、エージェントが一括して状態-作用空間全体をカバーし、不均一性の祝福を明らかにする。
関連論文リスト
- On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations [15.549340968605234]
フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:42:43Z) - Federated Control in Markov Decision Processes [23.086904790247576]
マルコフ決定過程におけるフェデレーション制御の問題点について検討する。
本稿では,エージェントの制限領域に関する知識を定期的に集約する新しい通信プロトコルを提案する。
特に、FedQ-Xは、作業負荷がエージェント間で均一に分散される場合、サンプルの複雑さの観点から線形スピードアップを楽しむことが示されている。
論文 参考訳(メタデータ) (2024-05-07T05:59:10Z) - Federated Offline Reinforcement Learning: Collaborative Single-Policy
Coverage Suffices [44.97418712091146]
オフライン強化学習(RL)は、オフラインデータを使用して最適なポリシーを学習しようとする。
この研究は、複数のエージェントでオフラインデータセットを協調的に活用することを目的とした、オフラインRLのためのフェデレーション学習のメリットを探求する。
FedLCB-Qは、フェデレートされたオフラインRLに適したモデルフリーQラーニングアルゴリズムの亜種である。
論文 参考訳(メタデータ) (2024-02-08T18:09:17Z) - Federated Q-Learning: Linear Regret Speedup with Low Communication Cost [4.380110270510058]
本稿では,FedQ-HoeffdingとFedQ-Bernsteinという2つの連合Qラーニングアルゴリズムを提案する。
時間的地平線が十分に大きい場合, 対応する全後悔は, 単エージェントと比較して直線的なスピードアップを達成することを示す。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構に依存します。
論文 参考訳(メタデータ) (2023-12-22T19:14:09Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。