論文の概要: The Actor-Critic Update Order Matters for PPO in Federated Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.01261v1
- Date: Mon, 02 Jun 2025 02:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.012689
- Title: The Actor-Critic Update Order Matters for PPO in Federated Reinforcement Learning
- Title(参考訳): フェデレーション強化学習におけるPPOのアクタ批判更新順序
- Authors: Zhijie Xie, Shenghui Song,
- Abstract要約: 我々は、異なるクライアントからの批判者の分散を取り除くために、更新順序(まずアクタ、次に批判)を反転させるFedRACを提案する。
実験結果から,提案アルゴリズムはより高い累積報酬を得て,より高速に5つの実験に収束することが示唆された。
- 参考スコア(独自算出の注目度): 10.727328530242461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of Federated Reinforcement Learning (FRL), applying Proximal Policy Optimization (PPO) faces challenges related to the update order of its actor and critic due to the aggregation step occurring between successive iterations. In particular, when local actors are updated based on local critic estimations, the algorithm becomes vulnerable to data heterogeneity. As a result, the conventional update order in PPO (critic first, then actor) may cause heterogeneous gradient directions among clients, hindering convergence to a globally optimal policy. To address this issue, we propose FedRAC, which reverses the update order (actor first, then critic) to eliminate the divergence of critics from different clients. Theoretical analysis shows that the convergence bound of FedRAC is immune to data heterogeneity under mild conditions, i.e., bounded level of heterogeneity and accurate policy evaluation. Empirical results indicate that the proposed algorithm obtains higher cumulative rewards and converges more rapidly in five experiments, including three classical RL environments and a highly heterogeneous autonomous driving scenario using the SUMO traffic simulator.
- Abstract(参考訳): フェデレート強化学習(FRL)の文脈では、PPO(Proximal Policy Optimization)の適用は、連続するイテレーション間の集約ステップによってアクターと批評家の更新順序に関連する課題に直面している。
特に、局所的な批評家推定に基づいてローカルアクターが更新されると、アルゴリズムはデータの不均一性に対して脆弱になる。
結果として、PPOの従来の更新順序(最初は批評家、次にアクター)はクライアント間の不均一な勾配方向を生じさせ、グローバルな最適ポリシーへの収束を妨げる可能性がある。
この問題に対処するため、我々はFedRACを提案し、これは更新順序(まずアクター、次に批判)を逆転させ、異なるクライアントからの批判の発散を排除する。
理論的解析により、FedRACの収束境界は、穏やかな条件下でのデータ不均一性、すなわち、有界な不均一性と正確な政策評価に免疫があることが示されている。
実験の結果,提案アルゴリズムは,従来の3つのRL環境とSUMO交通シミュレータを用いた高度に異質な自律運転シナリオを含む5つの実験において,より高い累積報酬を得て,より高速に収束することが示された。
関連論文リスト
- On Global Convergence Rates for Federated Policy Gradient under Heterogeneous Environment [14.366821866598803]
本稿では、ソフトマックスに着想を得たパラメータ化を慎重に構築したポリシー勾配法であるb-RS-FedPGを紹介する。
我々は, b-RS-FedPG のほぼ最適定常政策への明確な収束率を示す。
論文 参考訳(メタデータ) (2025-05-29T14:08:35Z) - From Interpretation to Correction: A Decentralized Optimization Framework for Exact Convergence in Federated Learning [9.870718388000645]
この研究は、任意のクライアント参加とデータの異質性によって引き起こされるバイアスを修正するための、新しい分散フレームワークを導入している。
我々は、任意の参加とデータ不均一性がFedAvgの収束点に与える影響を定量化するための簡潔な分析を提供することができる。
この洞察は、Push-pull Strategy (FOCUS)による厳密な収束を伴うフェデレーション最適化の開発を動機付けている。
論文 参考訳(メタデータ) (2025-03-25T23:54:23Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。