論文の概要: Momentum for the Win: Collaborative Federated Reinforcement Learning across Heterogeneous Environments
- arxiv url: http://arxiv.org/abs/2405.19499v1
- Date: Wed, 29 May 2024 20:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 19:06:28.648226
- Title: Momentum for the Win: Collaborative Federated Reinforcement Learning across Heterogeneous Environments
- Title(参考訳): 勝利のためのモメンタム:異種環境における協調的強化学習
- Authors: Han Wang, Sihong He, Zhili Zhang, Fei Miao, James Anderson,
- Abstract要約: 我々は、フェデレート強化学習(FRL)問題を探り、N$エージェントが共通の方針を、軌跡データを共有せずに共同で学習する。
平均性能関数の定常点に収束するFedSVRPG-MとFedHAPG-Mの2つのアルゴリズムを提案する。
我々のアルゴリズムはエージェント数に関して線形収束の高速化を享受しており、共通ポリシーを見つける上でのエージェント間の協調の利点を強調している。
- 参考スコア(独自算出の注目度): 17.995517050546244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore a Federated Reinforcement Learning (FRL) problem where $N$ agents collaboratively learn a common policy without sharing their trajectory data. To date, existing FRL work has primarily focused on agents operating in the same or ``similar" environments. In contrast, our problem setup allows for arbitrarily large levels of environment heterogeneity. To obtain the optimal policy which maximizes the average performance across all potentially completely different environments, we propose two algorithms: FedSVRPG-M and FedHAPG-M. In contrast to existing results, we demonstrate that both FedSVRPG-M and FedHAPG-M, both of which leverage momentum mechanisms, can exactly converge to a stationary point of the average performance function, regardless of the magnitude of environment heterogeneity. Furthermore, by incorporating the benefits of variance-reduction techniques or Hessian approximation, both algorithms achieve state-of-the-art convergence results, characterized by a sample complexity of $\mathcal{O}\left(\epsilon^{-\frac{3}{2}}/N\right)$. Notably, our algorithms enjoy linear convergence speedups with respect to the number of agents, highlighting the benefit of collaboration among agents in finding a common policy.
- Abstract(参考訳): 我々は、フェデレート強化学習(FRL)問題を探り、N$エージェントが共通の方針を、軌跡データを共有せずに共同で学習する。
これまで、既存のFRL作業は、主に同じまたは‘類似’環境で動作するエージェントに焦点を当ててきた。
対照的に、我々の問題設定は、任意に大きな環境不均一性を可能にします。
完全に異なる環境における平均性能を最大化する最適ポリシーを得るために,FedSVRPG-MとFedHAPG-Mの2つのアルゴリズムを提案する。
既存の結果とは対照的に, 運動量機構を利用するFedSVRPG-MとFedHAPG-Mは, 環境の不均一性に関わらず, 平均性能関数の定常点に正確に収束できることを実証した。
さらに、分散還元法やヘッセン近似の利点を取り入れることで、両アルゴリズムは、$\mathcal{O}\left(\epsilon^{-\frac{3}{2}}/N\right)$のサンプル複雑性を特徴とする最先端の収束結果が得られる。
特に,本アルゴリズムはエージェント数に関して線形収束の高速化を享受し,共通ポリシーの発見におけるエージェント間の協調のメリットを強調している。
関連論文リスト
- Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning [8.632943870358627]
フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。
本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。
我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-01-27T02:43:45Z) - Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Federated Temporal Difference Learning with Linear Function Approximation under Environmental Heterogeneity [44.2308932471393]
モデル推定の交換により,エージェント数の線形収束速度が向上することを示す。
低ヘテロジニティ系では、モデル推定を交換すると、エージェントの数で線形収束速度が向上する。
論文 参考訳(メタデータ) (2023-02-04T17:53:55Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Federated Reinforcement Learning with Environment Heterogeneity [30.797692838836277]
我々は,フェデレート強化学習(FedRL)問題について検討し,エージェントと環境相互作用の過程で収集した軌跡を共有せずに,$n$エージェントがひとつの方針を協調的に学習する。
本稿では,2つの連合RLアルゴリズム, textttQAvg と textttPAvg を提案する。
論文 参考訳(メタデータ) (2022-04-06T07:21:00Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。