論文の概要: Momentum-Based Federated Reinforcement Learning with Interaction and Communication Efficiency
- arxiv url: http://arxiv.org/abs/2405.17471v2
- Date: Wed, 29 May 2024 01:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 11:23:10.968343
- Title: Momentum-Based Federated Reinforcement Learning with Interaction and Communication Efficiency
- Title(参考訳): インタラクションとコミュニケーション効率を考慮したモーメントベースフェデレーション強化学習
- Authors: Sheng Yue, Xingyuan Hua, Lili Chen, Ju Ren,
- Abstract要約: フェデレート強化学習(FRL)が注目を集めている。
本稿では,新しいFRLアルゴリズムである$texttMFPO$を紹介する。
運動量パラメータと相互作用周波数の適切な選択により、$texttMFPO$は$tildemathcalO(H-1Nepsilon-3/2N)$および$tmathcalO(ilon-1N)$を達成することができる。
- 参考スコア(独自算出の注目度): 16.002770483584694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Reinforcement Learning (FRL) has garnered increasing attention recently. However, due to the intrinsic spatio-temporal non-stationarity of data distributions, the current approaches typically suffer from high interaction and communication costs. In this paper, we introduce a new FRL algorithm, named $\texttt{MFPO}$, that utilizes momentum, importance sampling, and additional server-side adjustment to control the shift of stochastic policy gradients and enhance the efficiency of data utilization. We prove that by proper selection of momentum parameters and interaction frequency, $\texttt{MFPO}$ can achieve $\tilde{\mathcal{O}}(H N^{-1}\epsilon^{-3/2})$ and $\tilde{\mathcal{O}}(\epsilon^{-1})$ interaction and communication complexities ($N$ represents the number of agents), where the interaction complexity achieves linear speedup with the number of agents, and the communication complexity aligns the best achievable of existing first-order FL algorithms. Extensive experiments corroborate the substantial performance gains of $\texttt{MFPO}$ over existing methods on a suite of complex and high-dimensional benchmarks.
- Abstract(参考訳): Federated Reinforcement Learning (FRL)は近年注目を集めている。
しかし、データ分布の本質的に時空間的非定常性のため、現在のアプローチは通常、高い相互作用と通信コストに悩まされる。
本稿では, モーメント, 重要サンプリング, サーバ側調整を利用して, 確率的ポリシー勾配のシフトを制御し, データ利用効率を向上させる新しいFRLアルゴリズム($\texttt{MFPO}$)を提案する。
運動量パラメータと相互作用周波数の適切な選択により、$\texttt{MFPO}$は$\tilde{\mathcal{O}}(H N^{-1}\epsilon^{-3/2})$と$\tilde{\mathcal{O}}(\epsilon^{-1})$相互作用と通信の複雑さ(N$はエージェント数を表す)を達成できる。
大規模な実験は、複雑な高次元のベンチマークスイート上の既存のメソッドよりも、$\texttt{MFPO}$のかなりのパフォーマンス向上を裏付ける。
関連論文リスト
- Compressed Federated Reinforcement Learning with a Generative Model [11.074080383657453]
強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。
この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。
通信効率のよいFedRL手法であるCompFedRLを提案する。
論文 参考訳(メタデータ) (2024-03-26T15:36:47Z) - Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning [8.632943870358627]
フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。
本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。
我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-01-27T02:43:45Z) - Achieving Linear Speedup in Non-IID Federated Bilevel Learning [16.56643290676128]
我々はFedMBOという新しいフェデレーションバイレベルアルゴリズムを提案する。
We show that FedMBO achieve a convergence rate of $mathcalObig(frac1sqrtnK+frac1K+fracsqrtnK3/2big)$ on non-i.d.datasets。
これは、i.d.d.federated bilevel optimizationに対する最初の理論的線形スピードアップ結果である。
論文 参考訳(メタデータ) (2023-02-10T18:28:00Z) - SAGDA: Achieving $\mathcal{O}(\epsilon^{-2})$ Communication Complexity
in Federated Min-Max Learning [9.001405567602745]
本稿では,SAGDAがクライアント数とローカル更新ステップの両方で線形高速化を実現することを示す。
また,フェデレートされたmin-max学習のための標準FSGDA法の通信複雑性に関する現在の理解も進める。
論文 参考訳(メタデータ) (2022-10-02T20:04:50Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ
LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。
本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文 参考訳(メタデータ) (2022-05-24T20:51:37Z) - OFedQIT: Communication-Efficient Online Federated Learning via
Quantization and Intermittent Transmission [7.6058140480517356]
オンライン連合学習(OFL)は、分散ストリーミングデータから非線形関数(またはモデル)のシーケンスを協調的に学習する、有望なフレームワークである。
本稿では、量子化と断続伝送を用いた通信効率の高いOFLアルゴリズム(OFedQIT)を提案する。
分析の結果,OfedQITは優れた学習精度を維持しつつ,OfedAvgの欠点に対処できることがわかった。
論文 参考訳(メタデータ) (2022-05-13T07:46:43Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - Dynamic Attention-based Communication-Efficient Federated Learning [85.18941440826309]
フェデレートラーニング(FL)は、グローバル機械学習モデルをトレーニングするためのソリューションを提供する。
FLは、クライアントデータの分散が非IIDであるときに性能劣化に悩まされる。
本稿では,この劣化に対処するために,新しい適応トレーニングアルゴリズムであるtextttAdaFL$を提案する。
論文 参考訳(メタデータ) (2021-08-12T14:18:05Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。