論文の概要: On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations
- arxiv url: http://arxiv.org/abs/2411.15014v1
- Date: Fri, 22 Nov 2024 15:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:44.712649
- Title: On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations
- Title(参考訳): 共有表現を用いた個人化フェデレーション強化学習の線形高速化について
- Authors: Guojun Xiong, Shufan Wang, Daniel Jiang, Jian Li,
- Abstract要約: フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
- 参考スコア(独自算出の注目度): 15.549340968605234
- License:
- Abstract: Federated reinforcement learning (FedRL) enables multiple agents to collaboratively learn a policy without sharing their local trajectories collected during agent-environment interactions. However, in practice, the environments faced by different agents are often heterogeneous, leading to poor performance by the single policy learned by existing FedRL algorithms on individual agents. In this paper, we take a further step and introduce a \emph{personalized} FedRL framework (PFedRL) by taking advantage of possibly shared common structure among agents in heterogeneous environments. Specifically, we develop a class of PFedRL algorithms named PFedRL-Rep that learns (1) a shared feature representation collaboratively among all agents, and (2) an agent-specific weight vector personalized to its local environment. We analyze the convergence of PFedTD-Rep, a particular instance of the framework with temporal difference (TD) learning and linear representations. To the best of our knowledge, we are the first to prove a linear convergence speedup with respect to the number of agents in the PFedRL setting. To achieve this, we show that PFedTD-Rep is an example of the federated two-timescale stochastic approximation with Markovian noise. Experimental results demonstrate that PFedTD-Rep, along with an extension to the control setting based on deep Q-networks (DQN), not only improve learning in heterogeneous settings, but also provide better generalization to new environments.
- Abstract(参考訳): フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
しかし、実際には、異なるエージェントが直面する環境は、しばしば異種であり、個々のエージェント上で既存のFedRLアルゴリズムによって学習された単一のポリシーによって、性能が低下する。
本稿では、異種環境におけるエージェント間で共有される共通構造を利用して、さらに一歩踏み出し、PFedRLフレームワーク(PFedRL)を導入する。
具体的には,PFedRLアルゴリズムのクラスであるPFedRL-Repを開発した。
PFedTD-Repは時間差(TD)学習と線形表現を伴うフレームワークの特定の例である。
我々の知る限りでは、PFedRL設定におけるエージェントの数に関して、線形収束速度を初めて証明する。
これを実現するために,PFedTD-Repはマルコフ雑音による2時間スケール確率近似の例であることを示す。
PFedTD-Repは、深層Q-networks(DQN)に基づく制御設定の拡張とともに、異種環境における学習を改善するだけでなく、新しい環境へのより良い一般化を提供することを示す。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Multi-agent Policy Reciprocity with Theoretical Guarantee [24.65151626601257]
提案手法は,不一致状態においてもエージェント間政策を完全に活用できる,新しいマルチエージェントポリシー相互性(PR)フレームワークを提案する。
離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。
論文 参考訳(メタデータ) (2023-04-12T06:27:10Z) - FedHQL: Federated Heterogeneous Q-Learning [32.01715758422344]
フェデレート強化学習(Federated Reinforcement Learning, FedRL)は、分散エージェントが互いに経験から集合的に学び、生の軌跡を交換することなく、パフォーマンスを改善することを奨励する。
現実世界のアプリケーションでは、エージェントはアーキテクチャとパラメータに異を唱えることが多い。
本稿では,これらの課題に主に対処するFederated Heterogeneous Q-Learning(FedHQL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T14:39:34Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Group-Agent Reinforcement Learning [12.915860504511523]
複数の地理的に分散したエージェントがそれぞれのRLタスクを協調的に実行すれば、各エージェントの強化学習プロセスに大きく貢献できる。
グループエージェント強化学習(GARL)のための分散RLフレームワークDDAL(Decentralized Distributed Asynchronous Learning)を提案する。
論文 参考訳(メタデータ) (2022-02-10T16:40:59Z) - Fully Distributed Actor-Critic Architecture for Multitask Deep
Reinforcement Learning [6.628062414583634]
マルチタスク強化学習(MRL)に応用したDiff-DACという,完全に分散したアクタ批判型アーキテクチャを提案する。
エージェントは、その価値とポリシーのパラメータを隣人に伝達し、中央局を必要とせずにエージェントのネットワークに情報を拡散する。
我々は,Diff-DACの一般仮定の下での共通ポリシーへの収束性をほぼ確実に証明する。
論文 参考訳(メタデータ) (2021-10-23T21:57:43Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。