Fugu-MT 論文翻訳(概要): Client Selection for Federated Policy Optimization with Environment Heterogeneity

論文の概要: Client Selection for Federated Policy Optimization with Environment Heterogeneity

arxiv url: http://arxiv.org/abs/2305.10978v5
Date: Tue, 20 Feb 2024 10:47:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 21:29:51.474475
Title: Client Selection for Federated Policy Optimization with Environment Heterogeneity
Title（参考訳）: 環境不均一性を考慮したフェデレーション政策最適化のためのクライアント選択
Authors: Zhijie Xie, S.H. Song
Abstract要約: 政策反復(PI)は、強化学習(RL)の多くのアルゴリズムに影響を与えた。本稿では,Approximate PI (API) のフェデレーションバージョンを調査し,そのエラー境界を導出する。追加の近似誤差を軽減するために,クライアント選択アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of Policy Iteration (PI) has inspired many recent algorithms for Reinforcement Learning (RL), including several policy gradient methods that gained both theoretical soundness and empirical success on a variety of tasks. The theory of PI is rich in the context of centralized learning, but its study under the federated setting is still in the infant stage. This paper investigates the federated version of Approximate PI (API) and derives its error bound, taking into account the approximation error introduced by environment heterogeneity. We theoretically prove that a proper client selection scheme can reduce this error bound. Based on the theoretical result, we propose a client selection algorithm to alleviate the additional approximation error caused by environment heterogeneity. Experiment results show that the proposed algorithm outperforms other biased and unbiased client selection methods on the federated mountain car problem and the Mujoco Hopper problem by effectively selecting clients with a lower level of heterogeneity from the population distribution.
Abstract（参考訳）: 政策反復(PI)の開発は、様々なタスクにおいて理論的健全性と経験的成功の両方を得たいくつかの政策勾配法を含む、近年の強化学習(RL)のアルゴリズムにインスピレーションを与えている。 PIの理論は集中学習の文脈に富んでいるが、その統合された環境下での研究はまだ幼児期にある。本稿では, 環境不均一性による近似誤差を考慮して, 近似PI (API) のフェデレーションバージョンを調査し, 誤差境界を導出する。理論的には、適切なクライアント選択方式により、このエラー境界を低減できる。理論的結果に基づいて,環境の不均一性に起因する追加近似誤差を緩和するクライアント選択アルゴリズムを提案する。実験の結果,提案アルゴリズムは,人口分布から低レベルの不均一性を有するクライアントを効果的に選択することにより,フェデレートされたマウンテンカー問題とムジョコホッパー問題において,他の偏りのないクライアント選択方法よりも優れていた。

関連論文リスト

Adaptive collaboration for online personalized distributed learning with heterogeneous clients [22.507916490976044]
ローカルトレーニングを加速するために, 統計的に異種なクライアントが協力して, オンラインパーソナライズ学習の課題をN$で検討した。この設定における重要な課題は、導入したバイアスを緩和しながら分散を減らすために、関連する協力者を選択することである。
論文参考訳（メタデータ） (2025-07-09T13:44:27Z)
Sociodynamics-inspired Adaptive Coalition and Client Selection in Federated Learning [39.58317527488534]
本稿では,時間的ソーシャルネットワーク上での意見ダイナミクスに着想を得た分散推論アルゴリズムであるショートネーム(Federated Coalition Variance Reduction with Boltzmann Exploration)を紹介する。実験により、不均一なシナリオでは、我々のアルゴリズムは既存のFLアルゴリズムより優れており、より正確な結果とより高速な収束が得られることが示された。
論文参考訳（メタデータ） (2025-06-03T14:04:31Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Wasserstein Distributionally Robust Policy Evaluation and Learning for Contextual Bandits [18.982448033389588]
オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことに関するものである。学習と実行における異なる環境の影響を考慮するため,分散ロバスト最適化法(DRO)が開発されている。代わりにワッサーシュタイン距離を用いた新しいDRO手法を提案する。
論文参考訳（メタデータ） (2023-09-15T20:21:46Z)
Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文参考訳（メタデータ） (2023-07-26T12:06:13Z)
Federated Compositional Deep AUC Maximization [58.25078060952361]
本研究では,曲線(AUC)のスコアを直接最適化することにより,不均衡なデータに対する新しいフェデレート学習法を開発した。私たちの知る限りでは、このような好ましい理論的な結果を達成した最初の作品である。
論文参考訳（メタデータ） (2023-04-20T05:49:41Z)
Adaptive Federated Learning via New Entropy Approach [14.595709494370372]
Federated Learning (FL) は、分散機械学習フレームワークとして注目されている。本稿では,不均一クライアント間のパラメータ偏差を軽減するために,entropy理論(FedEnt)に基づく適応型FEDerated Learningアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-27T07:57:04Z)
Federated Learning as Variational Inference: A Scalable Expectation Propagation Approach [66.9033666087719]
本稿では,推論の視点を拡張し,フェデレート学習の変分推論の定式化について述べる。我々は、FedEPを標準フェデレーション学習ベンチマークに適用し、収束速度と精度の両方において、強いベースラインを上回ります。
論文参考訳（メタデータ） (2023-02-08T17:58:11Z)
Decentralized adaptive clustering of deep nets is beneficial for client collaboration [0.7012240324005975]
分散ピアツーピア環境における個別のディープラーニングモデルを学習する際の課題について検討する。我々のコントリビューションは、各クライアントがローカルタスクの類似度推定に基づいて有益な協調を見出すアルゴリズムである。
論文参考訳（メタデータ） (2022-06-17T15:38:31Z)
Straggler-Resilient Personalized Federated Learning [55.54344312542944]
フェデレーション学習は、プライバシと通信の制限を尊重しながら、クライアントの大規模なネットワークに分散されたサンプルからのトレーニングモデルを可能にする。これら2つのハードルを同時に処理する理論的なスピードアップを保証する新しいアルゴリズム手法を開発した。提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。
論文参考訳（メタデータ） (2022-06-05T01:14:46Z)
Variance-Reduced Heterogeneous Federated Learning via Stratified Client Selection [31.401919362978017]
本稿では,収束性の向上と精度の向上を図るため,新たな階層化クライアント選択方式を提案する。地層変動の多様性を考慮し,最適化されたサンプルサイズ割当方式を提案する。実験結果から,本手法は最先端の手法と比較して性能が向上するだけでなく,一般的なFLアルゴリズムと互換性があることが確認された。
論文参考訳（メタデータ） (2022-01-15T05:41:36Z)
A Theorem of the Alternative for Personalized Federated Learning [19.499120576896228]
個人化された連合学習の過剰なリスクが、ミニマックスの観点からデータの不均一性に依存することを示す。その結果,クライアントサイドの不均質性に適応する難易度(無限次元)問題は,単純な二分決定問題に還元できることがわかった。
論文参考訳（メタデータ） (2021-03-02T17:58:20Z)
Sparse Feature Selection Makes Batch Reinforcement Learning More Sample Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文参考訳（メタデータ） (2020-11-08T16:48:02Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。