論文の概要: Federated Ensemble Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.05549v1
- Date: Sun, 12 Sep 2021 16:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:13:44.483368
- Title: Federated Ensemble Model-based Reinforcement Learning
- Title(参考訳): フェデレーションアンサンブルモデルに基づく強化学習
- Authors: Jin Wang, Jia Hu, Jed Mills, and Geyong Min
- Abstract要約: モデルベースRLとアンサンブル知識蒸留をFLに組み込んだ新しい連合RLアルゴリズムを提案する。
具体的には、FLと知識蒸留を利用してクライアントから動的モデルのアンサンブルを作成し、実際の環境と相互作用することなく、単にアンサンブルモデルを使用することでポリシーを訓練する。
- 参考スコア(独自算出の注目度): 17.293380428049833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated learning (FL) is a privacy-preserving machine learning paradigm
that enables collaborative training among geographically distributed and
heterogeneous users without gathering their data. Extending FL beyond the
conventional supervised learning paradigm, federated Reinforcement Learning
(RL) was proposed to handle sequential decision-making problems for various
privacy-sensitive applications such as autonomous driving. However, the
existing federated RL algorithms directly combine model-free RL with FL, and
thus generally have high sample complexity and lack theoretical guarantees. To
address the above challenges, we propose a new federated RL algorithm that
incorporates model-based RL and ensemble knowledge distillation into FL.
Specifically, we utilise FL and knowledge distillation to create an ensemble of
dynamics models from clients, and then train the policy by solely using the
ensemble model without interacting with the real environment. Furthermore, we
theoretically prove that the monotonic improvement of the proposed algorithm is
guaranteed. Extensive experimental results demonstrate that our algorithm
obtains significantly higher sample efficiency compared to federated model-free
RL algorithms in the challenging continuous control benchmark environments. The
results also show the impact of non-IID client data and local update steps on
the performance of federated RL, validating the insights obtained from our
theoretical analysis.
- Abstract(参考訳): Federated Learning(FL)は、データを収集することなく、地理的に分散した異種ユーザ間の協調トレーニングを可能にする、プライバシ保護機械学習パラダイムである。
FLを従来の教師付き学習パラダイムを超えて拡張することで、自律運転のような様々なプライバシーに敏感なアプリケーションに対して、逐次的な意思決定問題を扱うために、連合強化学習(RL)が提案された。
しかし、既存の連合RLアルゴリズムはモデルフリーRLをFLと直接結合し、一般に高いサンプル複雑性を持ち、理論的保証がない。
上記の課題に対処するため,モデルベースRLとアンサンブル知識蒸留をFLに組み込んだ新しい連合RLアルゴリズムを提案する。
具体的には、flと知識蒸留を利用してクライアントからダイナミクスモデルのアンサンブルを作成し、実際の環境と相互作用することなくアンサンブルモデルのみを用いてポリシーを訓練する。
さらに,提案アルゴリズムの単調改善が保証されていることを理論的に証明する。
実験結果から, 本アルゴリズムは, 連続制御ベンチマーク環境において, フェデレートされたモデルレスRLアルゴリズムに比べて, 試料効率が有意に高いことを示した。
また,非IIDクライアントデータと局所更新ステップがフェデレートRLの性能に及ぼす影響を検証し,理論的解析から得られた知見を検証した。
関連論文リスト
- Client Contribution Normalization for Enhanced Federated Learning [4.726250115737579]
スマートフォンやラップトップを含むモバイルデバイスは、分散化された異種データを生成する。
フェデレートラーニング(FL)は、データ共有のない分散デバイス間でグローバルモデルの協調トレーニングを可能にすることで、有望な代替手段を提供する。
本稿では、FLにおけるデータ依存的不均一性に着目し、局所的に訓練されたモデルから抽出された平均潜在表現を活用する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-10T04:03:09Z) - FedPAE: Peer-Adaptive Ensemble Learning for Asynchronous and Model-Heterogeneous Federated Learning [9.084674176224109]
フェデレートラーニング(FL)は、分散データソースを持つ複数のクライアントが、データのプライバシを損なうことなく、共同で共有モデルをトレーニングすることを可能にする。
我々は、モデルの不均一性と非同期学習をサポートする完全分散pFLアルゴリズムであるFederated Peer-Adaptive Ensemble Learning (FedPAE)を紹介する。
提案手法では,ピアツーピアモデル共有機構とアンサンブル選択を用いて,局所情報とグローバル情報とのより洗練されたバランスを実現する。
論文 参考訳(メタデータ) (2024-10-17T22:47:19Z) - Federated Representation Learning in the Under-Parameterized Regime [10.551397415936309]
フェデレート・表現学習(FRL)は、クライアントが共通の表現をトレーニングし、パーソナライズされた頭を維持しながら連携する、パーソナライズド・フェデレーション・ラーニング(FL)フレームワークである。
本稿では、新しいFRLアルゴリズムFLUTEを提案し、線形モデルに対するサンプルの複雑さと収束率を理論的に特徴づける。
実験により、FLUTEは、合成タスクと実世界のタスクの両方において、最先端のFRLソリューションよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-07T03:00:07Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Every Parameter Matters: Ensuring the Convergence of Federated Learning
with Dynamic Heterogeneous Models Reduction [22.567754688492414]
クロスデバイス・フェデレーション・ラーニング(FL)は、ユニークなコントリビューションを行う可能性のあるローエンドのクライアントが、リソースのボトルネックのため、大規模なモデルのトレーニングから除外されるという、大きな課題に直面します。
近年,グローバルモデルから縮小サイズのモデルを抽出し,それに応じてローカルクライアントに適用することによって,モデル不均一FLに焦点を当てている。
本稿では,オンラインモデル抽出を用いた不均一FLアルゴリズムの一元化フレームワークを提案し,一般収束解析を初めて提供する。
論文 参考訳(メタデータ) (2023-10-12T19:07:58Z) - UNIDEAL: Curriculum Knowledge Distillation Federated Learning [17.817181326740698]
フェデレートラーニング(FL)は、複数のクライアント間で協調学習を可能にする、有望なアプローチとして登場した。
本稿では,ドメイン横断シナリオの課題に対処するための新しいFLアルゴリズムであるUNIを提案する。
この結果から,UNIはモデル精度と通信効率の両面において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-09-16T11:30:29Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Deep Equilibrium Models Meet Federated Learning [71.57324258813675]
本研究では,従来の深層学習ネットワークの代わりにDeep Equilibrium(DEQ)モデルを用いて,フェデレートラーニング(FL)問題について検討する。
我々は、DECモデルをフェデレート学習フレームワークに組み込むことで、FLのいくつかのオープンな問題に自然に対処できると主張している。
我々の知る限りでは、この研究は、DECモデルとフェデレーションラーニングの関連性を確立する最初のものである。
論文 参考訳(メタデータ) (2023-05-29T22:51:40Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Fine-tuning Global Model via Data-Free Knowledge Distillation for
Non-IID Federated Learning [86.59588262014456]
フェデレートラーニング(Federated Learning, FL)は、プライバシ制約下での分散学習パラダイムである。
サーバ内のグローバルモデル(FedFTG)を微調整するデータフリー知識蒸留法を提案する。
私たちのFedFTGは最先端(SOTA)のFLアルゴリズムよりも優れており、FedAvg、FedProx、FedDyn、SCAFFOLDの強化のための強力なプラグインとして機能します。
論文 参考訳(メタデータ) (2022-03-17T11:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。