論文の概要: Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.10185v2
- Date: Mon, 21 Oct 2024 07:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:11:46.187765
- Title: Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning
- Title(参考訳): マルコフ雑音と不均一性を考慮した確率的フェデレーション:強化学習への応用
- Authors: Sajad Khodadadian, Pranay Sharma, Gauri Joshi, Siva Theja Maguluri,
- Abstract要約: フェデレーション強化学習は、N$エージェントが協力してグローバルモデルを学ぶためのフレームワークである。
この連立固定点問題の解法において, エージェントの綿密な協調によって, グローバルモデルのN$倍の高速化が期待できることを示す。
- 参考スコア(独自算出の注目度): 24.567125948995834
- License:
- Abstract: Since reinforcement learning algorithms are notoriously data-intensive, the task of sampling observations from the environment is usually split across multiple agents. However, transferring these observations from the agents to a central location can be prohibitively expensive in terms of communication cost, and it can also compromise the privacy of each agent's local behavior policy. Federated reinforcement learning is a framework in which $N$ agents collaboratively learn a global model, without sharing their individual data and policies. This global model is the unique fixed point of the average of $N$ local operators, corresponding to the $N$ agents. Each agent maintains a local copy of the global model and updates it using locally sampled data. In this paper, we show that by careful collaboration of the agents in solving this joint fixed point problem, we can find the global model $N$ times faster, also known as linear speedup. We first propose a general framework for federated stochastic approximation with Markovian noise and heterogeneity, showing linear speedup in convergence. We then apply this framework to federated reinforcement learning algorithms, examining the convergence of federated on-policy TD, off-policy TD, and $Q$-learning.
- Abstract(参考訳): 強化学習アルゴリズムはデータ集約性が高いことで知られているため、環境からの観測をサンプリングする作業は通常、複数のエージェントに分割される。
しかし、これらの観察をエージェントから中央の場所に移すことは、通信コストの観点からは違法にコストがかかり、また各エージェントのローカルな行動ポリシーのプライバシーを侵害する可能性がある。
フェデレーション強化学習(Federated reinforcement learning)は、N$エージェントが、個々のデータやポリシーを共有することなく、グローバルモデルを共同で学習するフレームワークである。
このグローバルモデルは、$N$エージェントに対応する平均$N$ローカル演算子のユニークな固定点である。
各エージェントはグローバルモデルのローカルコピーを保持し、ローカルサンプルデータを使用して更新する。
本稿では,この連立固定点問題の解法において,エージェントの注意深い協調により,大域的モデルがN$倍高速であること,線形スピードアップ(lineline speedup)としても知られていることを明らかにする。
まず,マルコフ雑音と不均一性を考慮した連立確率近似の一般フレームワークを提案し,収束の線形高速化を示す。
次に,この枠組みを連携型強化学習アルゴリズムに適用し,連携型オンラインTD,非政治型TD,およびQ$ラーニングの収束性を検討する。
関連論文リスト
- PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Asynchronous Diffusion Learning with Agent Subsampling and Local Updates [47.25856291277345]
エージェントのネットワークを非同期に動作させ,個々のローカルデータセットに適合する理想的なグローバルモデルを見つけることを目的とした。
平均二乗誤差感覚において非同期拡散戦略が安定であることを証明する。
論文 参考訳(メタデータ) (2024-02-08T10:07:30Z) - FedLPA: One-shot Federated Learning with Layer-Wise Posterior Aggregation [7.052566906745796]
FedLPAは、フェデレートラーニングのための階層的な後続アグリゲーション手法である。
以上の結果から,FedLPAは最先端の手法よりも学習性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:51:27Z) - The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond [44.43850105124659]
地域データだけで訓練された局所的なQ-推定を周期的に集約することで、最適なQ-関数を学習することを目的とした、連合型Q-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-行動ペアに対して,重み付けを重要視する新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:18:59Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Speeding up Heterogeneous Federated Learning with Sequentially Trained
Superclients [19.496278017418113]
フェデレートラーニング(FL)は、ローカルなデータ共有を必要とせず、エッジデバイスの協調を可能にすることにより、プライバシに制約のあるシナリオで機械学習モデルをトレーニングすることを可能にする。
このアプローチは、ローカルデータセットとクライアントの計算的不均一性の異なる統計分布のために、いくつかの課題を提起する。
我々は、多種多様なクライアント、すなわちスーパークオリエントの部分グループのシーケンシャルトレーニングを活用して、集中型パラダイムをプライバシに準拠した方法でエミュレートする新しいフレームワークであるFedSeqを提案する。
論文 参考訳(メタデータ) (2022-01-26T12:33:23Z) - Fully Distributed Actor-Critic Architecture for Multitask Deep
Reinforcement Learning [6.628062414583634]
マルチタスク強化学習(MRL)に応用したDiff-DACという,完全に分散したアクタ批判型アーキテクチャを提案する。
エージェントは、その価値とポリシーのパラメータを隣人に伝達し、中央局を必要とせずにエージェントのネットワークに情報を拡散する。
我々は,Diff-DACの一般仮定の下での共通ポリシーへの収束性をほぼ確実に証明する。
論文 参考訳(メタデータ) (2021-10-23T21:57:43Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。