論文の概要: Client Selection for Federated Policy Optimization with Environment
Heterogeneity
- arxiv url: http://arxiv.org/abs/2305.10978v4
- Date: Thu, 15 Feb 2024 13:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-17 00:13:49.324671
- Title: Client Selection for Federated Policy Optimization with Environment
Heterogeneity
- Title(参考訳): 環境不均一性を考慮したフェデレーション政策最適化のためのクライアント選択
- Authors: Zhijie Xie, S.H. Song
- Abstract要約: 政策反復(PI)は、強化学習(RL)の多くのアルゴリズムに影響を与えた。
本稿では,Approximate PI (API) のフェデレーションバージョンを調査し,そのエラー境界を導出する。
追加の近似誤差を軽減するために,クライアント選択アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of Policy Iteration (PI) has inspired many recent algorithms
for Reinforcement Learning (RL), including several policy gradient methods that
gained both theoretical soundness and empirical success on a variety of tasks.
The theory of PI is rich in the context of centralized learning, but its study
under the federated setting is still in the infant stage. This paper
investigates the federated version of Approximate PI (API) and derives its
error bound, taking into account the approximation error introduced by
environment heterogeneity. We theoretically prove that a proper client
selection scheme can reduce this error bound. Based on the theoretical result,
we propose a client selection algorithm to alleviate the additional
approximation error caused by environment heterogeneity. Experiment results
show that the proposed algorithm outperforms other biased and unbiased client
selection methods on the federated mountain car problem and the Mujoco Hopper
problem by effectively selecting clients with a lower level of heterogeneity
from the population distribution.
- Abstract(参考訳): 政策反復(PI)の開発は、様々なタスクにおいて理論的健全性と経験的成功の両方を得たいくつかの政策勾配法を含む、近年の強化学習(RL)のアルゴリズムにインスピレーションを与えている。
PIの理論は集中学習の文脈に富んでいるが、その統合された環境下での研究はまだ幼児期にある。
本稿では, 環境不均一性による近似誤差を考慮して, 近似PI (API) のフェデレーションバージョンを調査し, 誤差境界を導出する。
理論的には、適切なクライアント選択方式により、このエラー境界を低減できる。
理論的結果に基づいて,環境の不均一性に起因する追加近似誤差を緩和するクライアント選択アルゴリズムを提案する。
実験の結果,提案アルゴリズムは,人口分布から低レベルの不均一性を有するクライアントを効果的に選択することにより,フェデレートされたマウンテンカー問題とムジョコホッパー問題において,他の偏りのないクライアント選択方法よりも優れていた。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits [18.982448033389588]
オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことに関するものである。
学習と実行における異なる環境の影響を考慮するため,分散ロバスト最適化法(DRO)が開発されている。
代わりにワッサーシュタイン距離を用いた新しいDRO手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:21:46Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Federated Compositional Deep AUC Maximization [58.25078060952361]
本研究では,曲線(AUC)のスコアを直接最適化することにより,不均衡なデータに対する新しいフェデレート学習法を開発した。
私たちの知る限りでは、このような好ましい理論的な結果を達成した最初の作品である。
論文 参考訳(メタデータ) (2023-04-20T05:49:41Z) - Adaptive Federated Learning via New Entropy Approach [14.595709494370372]
Federated Learning (FL) は、分散機械学習フレームワークとして注目されている。
本稿では,不均一クライアント間のパラメータ偏差を軽減するために,entropy理論(FedEnt)に基づく適応型FEDerated Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-27T07:57:04Z) - Federated Learning as Variational Inference: A Scalable Expectation
Propagation Approach [66.9033666087719]
本稿では,推論の視点を拡張し,フェデレート学習の変分推論の定式化について述べる。
我々は、FedEPを標準フェデレーション学習ベンチマークに適用し、収束速度と精度の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-02-08T17:58:11Z) - Straggler-Resilient Personalized Federated Learning [55.54344312542944]
フェデレーション学習は、プライバシと通信の制限を尊重しながら、クライアントの大規模なネットワークに分散されたサンプルからのトレーニングモデルを可能にする。
これら2つのハードルを同時に処理する理論的なスピードアップを保証する新しいアルゴリズム手法を開発した。
提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。
論文 参考訳(メタデータ) (2022-06-05T01:14:46Z) - Variance-Reduced Heterogeneous Federated Learning via Stratified Client
Selection [31.401919362978017]
本稿では,収束性の向上と精度の向上を図るため,新たな階層化クライアント選択方式を提案する。
地層変動の多様性を考慮し,最適化されたサンプルサイズ割当方式を提案する。
実験結果から,本手法は最先端の手法と比較して性能が向上するだけでなく,一般的なFLアルゴリズムと互換性があることが確認された。
論文 参考訳(メタデータ) (2022-01-15T05:41:36Z) - A Theorem of the Alternative for Personalized Federated Learning [19.499120576896228]
個人化された連合学習の過剰なリスクが、ミニマックスの観点からデータの不均一性に依存することを示す。
その結果,クライアントサイドの不均質性に適応する難易度(無限次元)問題は,単純な二分決定問題に還元できることがわかった。
論文 参考訳(メタデータ) (2021-03-02T17:58:20Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。