Fugu-MT 論文翻訳(概要): Compressed Federated Reinforcement Learning with a Generative Model

論文の概要: Compressed Federated Reinforcement Learning with a Generative Model

arxiv url: http://arxiv.org/abs/2404.10635v4
Date: Mon, 26 Aug 2024 07:40:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 23:46:51.226041
Title: Compressed Federated Reinforcement Learning with a Generative Model
Title（参考訳）: 生成モデルを用いた圧縮強化学習
Authors: Ali Beikmohammadi, Sarit Khirirat, Sindri Magnússon,
Abstract要約: 強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。通信効率のよいFedRL手法であるCompFedRLを提案する。
参考スコア（独自算出の注目度）: 11.074080383657453
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement learning has recently gained unprecedented popularity, yet it still grapples with sample inefficiency. Addressing this challenge, federated reinforcement learning (FedRL) has emerged, wherein agents collaboratively learn a single policy by aggregating local estimations. However, this aggregation step incurs significant communication costs. In this paper, we propose CompFedRL, a communication-efficient FedRL approach incorporating both \textit{periodic aggregation} and (direct/error-feedback) compression mechanisms. Specifically, we consider compressed federated $Q$-learning with a generative model setup, where a central server learns an optimal $Q$-function by periodically aggregating compressed $Q$-estimates from local agents. For the first time, we characterize the impact of these two mechanisms (which have remained elusive) by providing a finite-time analysis of our algorithm, demonstrating strong convergence behaviors when utilizing either direct or error-feedback compression. Our bounds indicate improved solution accuracy concerning the number of agents and other federated hyperparameters while simultaneously reducing communication costs. To corroborate our theory, we also conduct in-depth numerical experiments to verify our findings, considering Top-$K$ and Sparsified-$K$ sparsification operators.
Abstract（参考訳）: 強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。しかし、この集約ステップは、かなりの通信コストを発生させる。本稿では,通信効率のよいFedRL手法であるCompFedRLを提案する。具体的には、中央サーバがローカルエージェントから圧縮された$Q$-estimatesを定期的に集約することにより、最適な$Q$-functionを学習する生成モデルセットアップを用いて、圧縮された$Q$-learningを検討する。提案アルゴリズムの有限時間解析により, 直接圧縮と誤りフィードバック圧縮のどちらを用いても強い収束挙動を示すことにより, この2つのメカニズムの影響を初めて特徴づけた。我々の限界は、通信コストを同時に低減しつつ、エージェント数やその他の連合ハイパーパラメータに関する解の精度の向上を示している。我々の理論を裏付けるために、我々は、Top-K$およびSparsified-K$スペーシフィケーション作用素を考慮し、詳細な数値実験も行います。

関連論文リスト

Tight analyses of first-order methods with error feedback [8.759583928626702]
エージェント間の通信は分散学習において大きな計算ボトルネックとなることが多い。最も一般的な緩和策の1つは、交換された情報を圧縮することである。圧縮通信に伴う収束の劣化に対処するために, 誤りフィードバック方式を導入した。
論文参考訳（メタデータ） (2025-06-05T17:30:18Z)
Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文参考訳（メタデータ） (2025-03-21T18:06:28Z)
Boosting the Performance of Decentralized Federated Learning via Catalyst Acceleration [66.43954501171292]
本稿では,Catalytics Accelerationを導入し,DFedCataと呼ばれる促進型分散フェデレート学習アルゴリズムを提案する。 DFedCataは、パラメータの不整合に対処するMoreauエンベロープ関数と、アグリゲーションフェーズを加速するNesterovの外挿ステップの2つの主要コンポーネントで構成されている。実験により, CIFAR10/100における収束速度と一般化性能の両面において, 提案アルゴリズムの利点を実証した。
論文参考訳（メタデータ） (2024-10-09T06:17:16Z)
Momentum-Based Federated Reinforcement Learning with Interaction and Communication Efficiency [16.002770483584694]
フェデレート強化学習(FRL)が注目を集めている。本稿では,新しいFRLアルゴリズムである$texttMFPO$を紹介する。運動量パラメータと相互作用周波数の適切な選択により、$texttMFPO$は$tildemathcalO(H-1Nepsilon-3/2N)$および$tmathcalO(ilon-1N)$を達成することができる。
論文参考訳（メタデータ） (2024-05-24T03:23:37Z)
Compressed and Sparse Models for Non-Convex Decentralized Learning [6.14375469212514]
頻繁なモデル通信は、分散機械学習の効率にとって重要なボトルネックである。モデル空間と勾配勾配を組み合わせた新しい分散MLアルゴリズムであるMalcom-PSGDを提案する。本手法は,最先端技術と比較して通信コストを約75%削減する。
論文参考訳（メタデータ） (2023-11-09T21:55:53Z)
Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-17T06:04:00Z)
Momentum Benefits Non-IID Federated Learning Simply and Provably [22.800862422479913]
フェデレートラーニングは大規模機械学習の強力なパラダイムである。 FedAvgとSCAFFOLDは、これらの課題に対処する2つの顕著なアルゴリズムである。本稿では,FedAvgとSCAFFOLDの性能向上のための運動量の利用について検討する。
論文参考訳（メタデータ） (2023-06-28T18:52:27Z)
Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文参考訳（メタデータ） (2023-04-07T13:41:08Z)
Provably Efficient Multi-Agent Reinforcement Learning with Fully Decentralized Communication [3.5450828190071655]
分散探索は強化学習におけるサンプリングの複雑さを低減する。各エージェントが分散メッセージパスプロトコルを使用すると,グループ性能が大幅に向上することを示す。グループ学習手法により多くのエージェントと情報共有を組み込むことで、最適ポリシーへの収束が加速することを示す。
論文参考訳（メタデータ） (2021-10-14T14:27:27Z)
Permutation Compressors for Provably Faster Distributed Nonconvex Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。 MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文参考訳（メタデータ） (2021-10-07T09:38:15Z)
Federated Learning with Unreliable Clients: Performance Analysis and Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文参考訳（メタデータ） (2021-05-10T08:02:27Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)
Intermittent Pulling with Local Compensation for Communication-Efficient Federated Learning [20.964434898554344]
Federated Learningは、高度に分散したデータでグローバルモデルをトレーニングするための強力な機械学習パラダイムである。分散SGDの性能における大きなボトルネックは、ローカルおよびプルグローバルモデルをプッシュする際の通信オーバーヘッドである。本稿では,通信オーバーヘッドを低減するため,PRLC (Gradient Pulling Compensation) という新しい手法を提案する。
論文参考訳（メタデータ） (2020-01-22T20:53:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。