論文の概要: On Global Convergence Rates for Federated Policy Gradient under Heterogeneous Environment
- arxiv url: http://arxiv.org/abs/2505.23459v1
- Date: Thu, 29 May 2025 14:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.889201
- Title: On Global Convergence Rates for Federated Policy Gradient under Heterogeneous Environment
- Title(参考訳): 不均一環境下におけるフェデレーション政策のグローバル収束率について
- Authors: Safwan Labbi, Paul Mangold, Daniil Tiapkin, Eric Moulines,
- Abstract要約: 本稿では、ソフトマックスに着想を得たパラメータ化を慎重に構築したポリシー勾配法であるb-RS-FedPGを紹介する。
我々は, b-RS-FedPG のほぼ最適定常政策への明確な収束率を示す。
- 参考スコア(独自算出の注目度): 14.366821866598803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring convergence of policy gradient methods in federated reinforcement learning (FRL) under environment heterogeneity remains a major challenge. In this work, we first establish that heterogeneity, perhaps counter-intuitively, can necessitate optimal policies to be non-deterministic or even time-varying, even in tabular environments. Subsequently, we prove global convergence results for federated policy gradient (FedPG) algorithms employing local updates, under a {\L}ojasiewicz condition that holds only for each individual agent, in both entropy-regularized and non-regularized scenarios. Crucially, our theoretical analysis shows that FedPG attains linear speed-up with respect to the number of agents, a property central to efficient federated learning. Leveraging insights from our theoretical findings, we introduce b-RS-FedPG, a novel policy gradient method that employs a carefully constructed softmax-inspired parameterization coupled with an appropriate regularization scheme. We further demonstrate explicit convergence rates for b-RS-FedPG toward near-optimal stationary policies. Finally, we demonstrate that empirically both FedPG and b-RS-FedPG consistently outperform federated Q-learning on heterogeneous settings.
- Abstract(参考訳): 環境の不均一性を考慮した統合強化学習(FRL)における政策勾配法の収束性の確保は依然として大きな課題である。
この研究において、不均一性は、おそらく反故意に、表の環境であっても、非決定的あるいは時間的変化に最適なポリシーを必要とすることを最初に確立する。
次に,各エージェントに対してのみ保持される,局所更新を用いたフェデレートポリシ勾配(FedPG)アルゴリズムのグローバル収束結果を,エントロピー正規化と非正規化の両方のシナリオで証明する。
理論的には、FedPGは効率のよいフェデレーション学習の中心となる特性であるエージェントの数に関して、線形的なスピードアップを実現している。
理論的な知見を取り入れたb-RS-FedPGは,適切に構成されたソフトマックスにインスパイアされたパラメータ化と適切な正規化手法を組み合わせた新しいポリシー勾配法である。
さらに, b-RS-FedPG のほぼ最適定常政策への明確な収束率を示す。
最後に、FedPGとb-RS-FedPGの両者が、不均一な環境下でのフェデレーションQ-ラーニングを一貫して上回っていることを実証した。
関連論文リスト
- Ordering-based Conditions for Global Convergence of Policy Gradient Methods [73.6366483406033]
線形関数近似を持つ有限腕バンディットに対して、ポリシー勾配法(PG)のグローバル収束はポリシー更新と表現の間の関係性に依存することを証明した。
全体として、これらの観測は線形関数近似の下でのPG法の大域収束を特徴づけるための適切な量として、疑問近似誤差を訴えている。
論文 参考訳(メタデータ) (2025-04-02T21:06:28Z) - Policy Gradient for LQR with Domain Randomization [25.387541996071093]
ドメインランダム化(DR)は、シミュレーション環境の分布に基づいて、コントローラをトレーニングすることで、sim-to-real転送を可能にする。
ドメインランダム化線形二次規則(LQR)のためのポリシー勾配法(PG法)の第1収束解析を提供する。
我々は,サンプル平均値と集団レベルの目標値の差を小さくすることに伴う試料複雑度を定量化する。
論文 参考訳(メタデータ) (2025-03-31T17:51:00Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。
勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文 参考訳(メタデータ) (2024-09-09T02:59:17Z) - Momentum for the Win: Collaborative Federated Reinforcement Learning across Heterogeneous Environments [17.995517050546244]
我々は、フェデレート強化学習(FRL)問題を探り、N$エージェントが共通の方針を、軌跡データを共有せずに共同で学習する。
平均性能関数の定常点に収束するFedSVRPG-MとFedHAPG-Mの2つのアルゴリズムを提案する。
我々のアルゴリズムはエージェント数に関して線形収束の高速化を享受しており、共通ポリシーを見つける上でのエージェント間の協調の利点を強調している。
論文 参考訳(メタデータ) (2024-05-29T20:24:42Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。