論文の概要: Client Selection for Federated Policy Optimization with Environment
Heterogeneity
- arxiv url: http://arxiv.org/abs/2305.10978v5
- Date: Tue, 20 Feb 2024 10:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 21:29:51.474475
- Title: Client Selection for Federated Policy Optimization with Environment
Heterogeneity
- Title(参考訳): 環境不均一性を考慮したフェデレーション政策最適化のためのクライアント選択
- Authors: Zhijie Xie, S.H. Song
- Abstract要約: 政策反復(PI)は、強化学習(RL)の多くのアルゴリズムに影響を与えた。
本稿では,Approximate PI (API) のフェデレーションバージョンを調査し,そのエラー境界を導出する。
追加の近似誤差を軽減するために,クライアント選択アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of Policy Iteration (PI) has inspired many recent algorithms
for Reinforcement Learning (RL), including several policy gradient methods that
gained both theoretical soundness and empirical success on a variety of tasks.
The theory of PI is rich in the context of centralized learning, but its study
under the federated setting is still in the infant stage. This paper
investigates the federated version of Approximate PI (API) and derives its
error bound, taking into account the approximation error introduced by
environment heterogeneity. We theoretically prove that a proper client
selection scheme can reduce this error bound. Based on the theoretical result,
we propose a client selection algorithm to alleviate the additional
approximation error caused by environment heterogeneity. Experiment results
show that the proposed algorithm outperforms other biased and unbiased client
selection methods on the federated mountain car problem and the Mujoco Hopper
problem by effectively selecting clients with a lower level of heterogeneity
from the population distribution.
- Abstract(参考訳): 政策反復(PI)の開発は、様々なタスクにおいて理論的健全性と経験的成功の両方を得たいくつかの政策勾配法を含む、近年の強化学習(RL)のアルゴリズムにインスピレーションを与えている。
PIの理論は集中学習の文脈に富んでいるが、その統合された環境下での研究はまだ幼児期にある。
本稿では, 環境不均一性による近似誤差を考慮して, 近似PI (API) のフェデレーションバージョンを調査し, 誤差境界を導出する。
理論的には、適切なクライアント選択方式により、このエラー境界を低減できる。
理論的結果に基づいて,環境の不均一性に起因する追加近似誤差を緩和するクライアント選択アルゴリズムを提案する。
実験の結果,提案アルゴリズムは,人口分布から低レベルの不均一性を有するクライアントを効果的に選択することにより,フェデレートされたマウンテンカー問題とムジョコホッパー問題において,他の偏りのないクライアント選択方法よりも優れていた。
関連論文リスト
- Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits [18.982448033389588]
オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことに関するものである。
学習と実行における異なる環境の影響を考慮するため,分散ロバスト最適化法(DRO)が開発されている。
代わりにワッサーシュタイン距離を用いた新しいDRO手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:21:46Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
その結果,提案したtextsfPARL が RL におけるアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Federated Learning as Variational Inference: A Scalable Expectation
Propagation Approach [66.9033666087719]
本稿では,推論の視点を拡張し,フェデレート学習の変分推論の定式化について述べる。
我々は、FedEPを標準フェデレーション学習ベンチマークに適用し、収束速度と精度の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-02-08T17:58:11Z) - FedLAP-DP: Federated Learning by Sharing Differentially Private Loss
Approximations [58.192338472631405]
FedLAP-DPは、フェデレーション学習のための新しいプライバシー保護アプローチである。
我々の定式化は、クライアントから受信した合成サンプルを活用することで、グローバルな最適化を可能にします。
プライバシーの懸念が高まりつつある中で、私たちのアプローチがレコードレベルの差分プライバシーとシームレスに機能することを実証しています。
論文 参考訳(メタデータ) (2023-02-02T12:56:46Z) - Decentralized adaptive clustering of deep nets is beneficial for client
collaboration [0.7012240324005975]
分散ピアツーピア環境における個別のディープラーニングモデルを学習する際の課題について検討する。
我々のコントリビューションは、各クライアントがローカルタスクの類似度推定に基づいて有益な協調を見出すアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-17T15:38:31Z) - Variance-Reduced Heterogeneous Federated Learning via Stratified Client
Selection [31.401919362978017]
本稿では,収束性の向上と精度の向上を図るため,新たな階層化クライアント選択方式を提案する。
地層変動の多様性を考慮し,最適化されたサンプルサイズ割当方式を提案する。
実験結果から,本手法は最先端の手法と比較して性能が向上するだけでなく,一般的なFLアルゴリズムと互換性があることが確認された。
論文 参考訳(メタデータ) (2022-01-15T05:41:36Z) - A Theorem of the Alternative for Personalized Federated Learning [19.499120576896228]
個人化された連合学習の過剰なリスクが、ミニマックスの観点からデータの不均一性に依存することを示す。
その結果,クライアントサイドの不均質性に適応する難易度(無限次元)問題は,単純な二分決定問題に還元できることがわかった。
論文 参考訳(メタデータ) (2021-03-02T17:58:20Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。