論文の概要: Federated Q-Learning: Linear Regret Speedup with Low Communication Cost
- arxiv url: http://arxiv.org/abs/2312.15023v1
- Date: Fri, 22 Dec 2023 19:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:10:59.815556
- Title: Federated Q-Learning: Linear Regret Speedup with Low Communication Cost
- Title(参考訳): Federated Q-Learning: 通信コストの低い線形レグレット高速化
- Authors: Zhong Zheng, Fengyu Gao, Lingzhou Xue, Jing Yang
- Abstract要約: 本稿では,FedQ-HoeffdingとFedQ-Bernsteinという2つの連合Qラーニングアルゴリズムを提案する。
時間的地平線が十分に大きい場合, 対応する全後悔は, 単エージェントと比較して直線的なスピードアップを達成することを示す。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構に依存します。
- 参考スコア(独自算出の注目度): 4.784955805555863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider federated reinforcement learning for tabular
episodic Markov Decision Processes (MDP) where, under the coordination of a
central server, multiple agents collaboratively explore the environment and
learn an optimal policy without sharing their raw data. While linear speedup in
the number of agents has been achieved for some metrics, such as convergence
rate and sample complexity, in similar settings, it is unclear whether it is
possible to design a model-free algorithm to achieve linear regret speedup with
low communication cost. We propose two federated Q-Learning algorithms termed
as FedQ-Hoeffding and FedQ-Bernstein, respectively, and show that the
corresponding total regrets achieve a linear speedup compared with their
single-agent counterparts when the time horizon is sufficiently large, while
the communication cost scales logarithmically in the total number of time steps
$T$. Those results rely on an event-triggered synchronization mechanism between
the agents and the server, a novel step size selection when the server
aggregates the local estimates of the state-action values to form the global
estimates, and a set of new concentration inequalities to bound the sum of
non-martingale differences. This is the first work showing that linear regret
speedup and logarithmic communication cost can be achieved by model-free
algorithms in federated reinforcement learning.
- Abstract(参考訳): 本稿では,中央サーバの協調の下で複数のエージェントが協調して環境を探索し,それらの生データを共有することなく最適な方針を学習する,表状エピソディックマルコフ決定プロセス(mdp)のためのフェデレート強化学習について検討する。
収束率やサンプルの複雑さなどの指標では,エージェント数の線形スピードアップが達成されているが,通信コストの低い線形後悔スピードアップを実現するために,モデルフリーなアルゴリズムを設計できるかどうかは不明である。
本稿では,FedQ-Hoeffding とFedQ-Bernstein という2つの連立Q-Learningアルゴリズムを提案し,時間的地平線が十分に大きい場合と比較して,対応する全後悔が線形なスピードアップを達成することを示し,通信コストは時間的ステップの総数$T$で対数的にスケールすることを示した。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構、サーバがステートアクション値の局所的な見積を集約してグローバルな見積を形成する場合の新たなステップサイズ選択、および非マーチンゲール差の和を束縛する新しい濃度不等式に頼っている。
これは、連帯強化学習におけるモデルフリーアルゴリズムによって線形後悔のスピードアップと対数コミュニケーションコストが達成できることを示す最初の研究である。
関連論文リスト
- The Sample-Communication Complexity Trade-off in Federated Q-Learning [31.644851830271755]
広範に使われている間欠的通信アルゴリズムにおけるサンプルと通信複雑性のトレードオフについて検討する。
我々は、注文最適サンプルと通信の複雑さを同時に達成する最初のフェデレーションQ-ラーニングアルゴリズムであるFed-DVR-Qを提案する。
論文 参考訳(メタデータ) (2024-08-30T03:03:03Z) - Federated Q-Learning with Reference-Advantage Decomposition: Almost Optimal Regret and Logarithmic Communication Cost [4.895986534376972]
本稿では,FedQ-Advantageと呼ばれる新しいモデルフリーなフェデレーションQ-ラーニングアルゴリズムを提案する。
我々のアルゴリズムは対数通信コストを低くするだけでなく、時間的地平線が十分に大きい場合と比較して、対数係数に縛られた情報とほぼ直線的後悔のスピードアップに到達して、ほぼ最適の後悔を達成する。
論文 参考訳(メタデータ) (2024-05-29T06:26:52Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [65.85963235502322]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Scheduling and Communication Schemes for Decentralized Federated
Learning [0.31410859223862103]
勾配降下(SGD)アルゴリズムを用いた分散連合学習(DFL)モデルが導入された。
DFLの3つのスケジューリングポリシーがクライアントと並列サーバ間の通信のために提案されている。
その結果,提案した計画警察は,収束速度と最終グローバルモデルの両方に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-11-27T17:35:28Z) - Serverless Federated AUPRC Optimization for Multi-Party Collaborative
Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。
サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。
本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-06T06:51:32Z) - The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond [44.43850105124659]
地域データだけで訓練された局所的なQ-推定を周期的に集約することで、最適なQ-関数を学習することを目的とした、連合型Q-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-行動ペアに対して,重み付けを重要視する新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:18:59Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。