論文の概要: Federated Reinforcement Learning in Heterogeneous Environments
- arxiv url: http://arxiv.org/abs/2507.14487v1
- Date: Sat, 19 Jul 2025 05:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.910401
- Title: Federated Reinforcement Learning in Heterogeneous Environments
- Title(参考訳): 不均一環境におけるフェデレーション強化学習
- Authors: Ukjo Hwang, Songnam Hong,
- Abstract要約: 本研究では, 局所環境が統計的不均一性を示す, 環境不均一性を伴う連邦強化学習(FRL-EH)フレームワークについて検討する。
このフレームワーク内では、エージェントは、ローカルな軌跡のプライバシーを維持しながら、集合的な経験を集約することで、グローバルなポリシーを共同で学習する。
異質な局所環境とその可塑性摂動におけるロバストな性能を保証する,新たなグローバルな目的関数を提案する。
我々は、期待損失を利用してFedRQを連続的な状態空間を持つ環境に拡張し、状態空間の連続部分集合上の値関数を最小化するという重要な課題に対処する。
- 参考スコア(独自算出の注目度): 9.944647907864255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate a Federated Reinforcement Learning with Environment Heterogeneity (FRL-EH) framework, where local environments exhibit statistical heterogeneity. Within this framework, agents collaboratively learn a global policy by aggregating their collective experiences while preserving the privacy of their local trajectories. To better reflect real-world scenarios, we introduce a robust FRL-EH framework by presenting a novel global objective function. This function is specifically designed to optimize a global policy that ensures robust performance across heterogeneous local environments and their plausible perturbations. We propose a tabular FRL algorithm named FedRQ and theoretically prove its asymptotic convergence to an optimal policy for the global objective function. Furthermore, we extend FedRQ to environments with continuous state space through the use of expectile loss, addressing the key challenge of minimizing a value function over a continuous subset of the state space. This advancement facilitates the seamless integration of the principles of FedRQ with various Deep Neural Network (DNN)-based RL algorithms. Extensive empirical evaluations validate the effectiveness and robustness of our FRL algorithms across diverse heterogeneous environments, consistently achieving superior performance over the existing state-of-the-art FRL algorithms.
- Abstract(参考訳): 本研究では, 局所環境が統計的不均一性を示す, 環境不均一性を伴う連邦強化学習(FRL-EH)フレームワークについて検討する。
このフレームワーク内では、エージェントは、ローカルな軌跡のプライバシーを維持しながら、集合的な経験を集約することで、グローバルなポリシーを共同で学習する。
実世界のシナリオをよりよく反映するために,新しいグローバルな目的関数を提示することにより,堅牢なFRL-EHフレームワークを導入する。
この関数は、不均一な局所環境とその可塑性摂動におけるロバストな性能を保証するグローバルなポリシーを最適化するように設計されている。
我々はFedRQという表型FRLアルゴリズムを提案し、その漸近収束性を大域的目的関数の最適ポリシーに理論的に証明する。
さらに,FedRQを期待損失を利用して連続的な状態空間を持つ環境に拡張し,状態空間の連続部分集合上での値関数の最小化という重要な課題に対処する。
この進歩は、FedRQの原理を様々なディープニューラルネットワーク(DNN)ベースのRLアルゴリズムとシームレスに統合することを促進する。
さまざまな異種環境におけるFRLアルゴリズムの有効性とロバスト性を評価し、既存の最先端FRLアルゴリズムよりも一貫して優れた性能を実現している。
関連論文リスト
- On Global Convergence Rates for Federated Policy Gradient under Heterogeneous Environment [14.366821866598803]
本稿では、ソフトマックスに着想を得たパラメータ化を慎重に構築したポリシー勾配法であるb-RS-FedPGを紹介する。
我々は, b-RS-FedPG のほぼ最適定常政策への明確な収束率を示す。
論文 参考訳(メタデータ) (2025-05-29T14:08:35Z) - Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning [53.9544543607396]
我々は、報酬レンダリングとImitation from Observation (IfO)を統合した新しいフレームワークを提案する。
異なる方法でF距離をインスタンス化することにより、2つの理論的解析を導き、アクセシブルステート指向ポリシー規則化(ASOR)と呼ばれる実用的なアルゴリズムを開発する。
ASOR は、オフライン RL やオフライン RL など、様々なアプローチ RL に組み込まれる一般的なアドオンモジュールとして機能する。
論文 参考訳(メタデータ) (2025-03-10T03:50:20Z) - Momentum for the Win: Collaborative Federated Reinforcement Learning across Heterogeneous Environments [17.995517050546244]
我々は、フェデレート強化学習(FRL)問題を探り、N$エージェントが共通の方針を、軌跡データを共有せずに共同で学習する。
平均性能関数の定常点に収束するFedSVRPG-MとFedHAPG-Mの2つのアルゴリズムを提案する。
我々のアルゴリズムはエージェント数に関して線形収束の高速化を享受しており、共通ポリシーを見つける上でのエージェント間の協調の利点を強調している。
論文 参考訳(メタデータ) (2024-05-29T20:24:42Z) - Federated Offline Policy Optimization with Dual Regularization [12.320355780707168]
Federated Reinforcement Learning (FRL)は、モノのインターネット時代において、インテリジェントな意思決定のための有望なソリューションとみなされてきた。
既存のFRLアプローチは、しばしばローカル更新中に環境との繰り返しの相互作用を伴い、多くの現実世界のドメインでは違法に高価または不可能である。
本稿では、分散エージェントがプライベートデータと静的データのみから意思決定ポリシーを協調的に学習することを可能にする、新しいオフラインフェデレーション最適化アルゴリズムである$textttO$を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:24:03Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape [59.841889495864386]
フェデレートラーニング(FL)では、グローバルサーバの協調の下で、ローカルクライアントのクラスタがチェアリングされる。
クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から非常に逸脱する。
tt Family FedSMOOは、グローバルな目的に対する局所的な最適性を保証するために動的正規化器を採用する。
理論解析により, tt Family FedSMOO は, 低境界一般化による高速$mathcalO (1/T)$収束率を達成することが示された。
論文 参考訳(メタデータ) (2023-05-19T10:47:44Z) - Federated Learning as Variational Inference: A Scalable Expectation
Propagation Approach [66.9033666087719]
本稿では,推論の視点を拡張し,フェデレート学習の変分推論の定式化について述べる。
我々は、FedEPを標準フェデレーション学習ベンチマークに適用し、収束速度と精度の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-02-08T17:58:11Z) - Differentiated Federated Reinforcement Learning Based Traffic Offloading on Space-Air-Ground Integrated Networks [12.080548048901374]
本稿では,SAGINにおけるトラヒックオフロード問題を解決するために,DFRL(differated federated reinforcement learning)を用いることを提案する。
SAGINの各領域の異なる特性を考慮すると、DFRLはトラフィックオフロードポリシー最適化プロセスをモデル化する。
本稿では,この問題を解決するために,新たな微分型フェデレート・ソフト・アクター・クリティカル (DFSAC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-05T07:40:29Z) - FedKL: Tackling Data Heterogeneity in Federated Reinforcement Learning
by Penalizing KL Divergence [0.0]
フェデレートラーニング(FL)は、多くのモデルの同期と集約のためにコミュニケーションのボトルネックに直面します。
不均一なデータは、収束が遅くなることによってさらに状況が悪化する。
本稿では、まず、政策勾配に基づくFRLシステムにおけるデータ不均一性の種類とレベルを定義する。
論文 参考訳(メタデータ) (2022-04-18T01:46:59Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。