論文の概要: Federated Q-Learning: Linear Regret Speedup with Low Communication Cost
- arxiv url: http://arxiv.org/abs/2312.15023v1
- Date: Fri, 22 Dec 2023 19:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:10:59.815556
- Title: Federated Q-Learning: Linear Regret Speedup with Low Communication Cost
- Title(参考訳): Federated Q-Learning: 通信コストの低い線形レグレット高速化
- Authors: Zhong Zheng, Fengyu Gao, Lingzhou Xue, Jing Yang
- Abstract要約: 本稿では,FedQ-HoeffdingとFedQ-Bernsteinという2つの連合Qラーニングアルゴリズムを提案する。
時間的地平線が十分に大きい場合, 対応する全後悔は, 単エージェントと比較して直線的なスピードアップを達成することを示す。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構に依存します。
- 参考スコア(独自算出の注目度): 4.784955805555863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider federated reinforcement learning for tabular
episodic Markov Decision Processes (MDP) where, under the coordination of a
central server, multiple agents collaboratively explore the environment and
learn an optimal policy without sharing their raw data. While linear speedup in
the number of agents has been achieved for some metrics, such as convergence
rate and sample complexity, in similar settings, it is unclear whether it is
possible to design a model-free algorithm to achieve linear regret speedup with
low communication cost. We propose two federated Q-Learning algorithms termed
as FedQ-Hoeffding and FedQ-Bernstein, respectively, and show that the
corresponding total regrets achieve a linear speedup compared with their
single-agent counterparts when the time horizon is sufficiently large, while
the communication cost scales logarithmically in the total number of time steps
$T$. Those results rely on an event-triggered synchronization mechanism between
the agents and the server, a novel step size selection when the server
aggregates the local estimates of the state-action values to form the global
estimates, and a set of new concentration inequalities to bound the sum of
non-martingale differences. This is the first work showing that linear regret
speedup and logarithmic communication cost can be achieved by model-free
algorithms in federated reinforcement learning.
- Abstract(参考訳): 本稿では,中央サーバの協調の下で複数のエージェントが協調して環境を探索し,それらの生データを共有することなく最適な方針を学習する,表状エピソディックマルコフ決定プロセス(mdp)のためのフェデレート強化学習について検討する。
収束率やサンプルの複雑さなどの指標では,エージェント数の線形スピードアップが達成されているが,通信コストの低い線形後悔スピードアップを実現するために,モデルフリーなアルゴリズムを設計できるかどうかは不明である。
本稿では,FedQ-Hoeffding とFedQ-Bernstein という2つの連立Q-Learningアルゴリズムを提案し,時間的地平線が十分に大きい場合と比較して,対応する全後悔が線形なスピードアップを達成することを示し,通信コストは時間的ステップの総数$T$で対数的にスケールすることを示した。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構、サーバがステートアクション値の局所的な見積を集約してグローバルな見積を形成する場合の新たなステップサイズ選択、および非マーチンゲール差の和を束縛する新しい濃度不等式に頼っている。
これは、連帯強化学習におけるモデルフリーアルゴリズムによって線形後悔のスピードアップと対数コミュニケーションコストが達成できることを示す最初の研究である。
関連論文リスト
- Scheduling and Communication Schemes for Decentralized Federated
Learning [0.31410859223862103]
勾配降下(SGD)アルゴリズムを用いた分散連合学習(DFL)モデルが導入された。
DFLの3つのスケジューリングポリシーがクライアントと並列サーバ間の通信のために提案されている。
その結果,提案した計画警察は,収束速度と最終グローバルモデルの両方に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-11-27T17:35:28Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Serverless Federated AUPRC Optimization for Multi-Party Collaborative
Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。
サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。
本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-06T06:51:32Z) - The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond [44.43850105124659]
地域データだけで訓練された局所的なQ-推定を周期的に集約することで、最適なQ-関数を学習することを目的とした、連合型Q-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-行動ペアに対して,重み付けを重要視する新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:18:59Z) - Time-sensitive Learning for Heterogeneous Federated Edge Intelligence [52.83633954857744]
フェデレーションエッジインテリジェンス(FEI)システムにおけるリアルタイム機械学習について検討する。
FEIシステムは異種通信と計算資源分布を示す。
本稿では,共有MLモデルの協調学習における全体の実行時間を最小化するために,時間依存型フェデレーションラーニング(TS-FL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-26T08:13:22Z) - OFedQIT: Communication-Efficient Online Federated Learning via
Quantization and Intermittent Transmission [7.6058140480517356]
オンライン連合学習(OFL)は、分散ストリーミングデータから非線形関数(またはモデル)のシーケンスを協調的に学習する、有望なフレームワークである。
本稿では、量子化と断続伝送を用いた通信効率の高いOFLアルゴリズム(OFedQIT)を提案する。
分析の結果,OfedQITは優れた学習精度を維持しつつ,OfedAvgの欠点に対処できることがわかった。
論文 参考訳(メタデータ) (2022-05-13T07:46:43Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - Coded Computing for Low-Latency Federated Learning over Wireless Edge
Networks [10.395838711844892]
フェデレートラーニングは、データ共有やクライアントデータを集中型サーバに移行することなく、クライアントノードにあるデータからグローバルモデルをトレーニングすることを可能にする。
我々は,構造化符号化冗長性をフェデレーション学習に注入し,ストラグラーを緩和し,訓練手順を高速化する,新しい符号化コンピューティングフレームワーク,CodedFedLを提案する。
論文 参考訳(メタデータ) (2020-11-12T06:21:59Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。