論文の概要: Federated Reinforcement Learning: Linear Speedup Under Markovian
Sampling
- arxiv url: http://arxiv.org/abs/2206.10185v1
- Date: Tue, 21 Jun 2022 08:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 03:34:21.381894
- Title: Federated Reinforcement Learning: Linear Speedup Under Markovian
Sampling
- Title(参考訳): 連邦強化学習:マルコフサンプリングによる線形高速化
- Authors: Sajad Khodadadian, Pranay Sharma, Gauri Joshi, Siva Theja Maguluri
- Abstract要約: 我々は,複数のエージェントが協調してグローバルモデルを学ぶ,連合型強化学習フレームワークを検討する。
本稿では,オンラインTD,オフラインTD,Qラーニングのフェデレーションバージョンを提案し,その収束度を解析する。
我々はマルコフ雑音と複数の局所的な更新を最初に検討し、エージェント数に関して線形収束速度を証明した。
- 参考スコア(独自算出の注目度): 17.943014287720395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since reinforcement learning algorithms are notoriously data-intensive, the
task of sampling observations from the environment is usually split across
multiple agents. However, transferring these observations from the agents to a
central location can be prohibitively expensive in terms of the communication
cost, and it can also compromise the privacy of each agent's local behavior
policy. In this paper, we consider a federated reinforcement learning framework
where multiple agents collaboratively learn a global model, without sharing
their individual data and policies. Each agent maintains a local copy of the
model and updates it using locally sampled data. Although having N agents
enables the sampling of N times more data, it is not clear if it leads to
proportional convergence speedup. We propose federated versions of on-policy
TD, off-policy TD and Q-learning, and analyze their convergence. For all these
algorithms, to the best of our knowledge, we are the first to consider
Markovian noise and multiple local updates, and prove a linear convergence
speedup with respect to the number of agents. To obtain these results, we show
that federated TD and Q-learning are special cases of a general framework for
federated stochastic approximation with Markovian noise, and we leverage this
framework to provide a unified convergence analysis that applies to all the
algorithms.
- Abstract(参考訳): 強化学習アルゴリズムはデータ集約性が高いことで知られているため、環境からの観測をサンプリングする作業は通常複数のエージェントに分割される。
しかし、これらの観察をエージェントから中央の場所に移すことは、通信コストの面では極めて高価であり、また、各エージェントのローカル行動ポリシーのプライバシーを侵害する可能性がある。
本稿では,複数のエージェントが個別のデータや方針を共有することなく,協調的にグローバルモデルを学ぶ,連合強化学習フレームワークについて考察する。
各エージェントはモデルのローカルコピーを保持し、ローカルサンプルデータを使用して更新する。
N 個のエージェントを持つことで N 個のデータをサンプリングすることができるが、比例収束速度が向上するかどうかは明らかではない。
我々は,オンポリシーtd,オフポリシーtd,qラーニングの連帯型を提案し,それらの収束を分析する。
これらすべてのアルゴリズムについて、私たちの知る限りでは、我々はマルコフノイズと複数の局所更新を最初に検討し、エージェントの数に関して線形収束速度を証明します。
これらの結果を得るため,マルコフ雑音を伴う連立確率近似の一般的な枠組みであるフェデレートtdとq-learningは特別な場合であり,この枠組みを利用してすべてのアルゴリズムに適用可能な統一収束解析を提供する。
関連論文リスト
- Self-Localized Collaborative Perception [49.86110931859302]
我々は,新しい自己局在型協調認識システムであるMathttCoBEVGlue$を提案する。
$mathttCoBEVGlue$は、エージェント間の相対的なポーズを提供する新しい空間アライメントモジュールである。
$mathttCoBEVGlue$は任意のローカライゼーションノイズとアタックの下で最先端の検出性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T15:26:54Z) - FedLPA: One-shot Federated Learning with Layer-Wise Posterior Aggregation [7.052566906745796]
FedLPAは、フェデレートラーニングのための階層的な後続アグリゲーション手法である。
以上の結果から,FedLPAは最先端の手法よりも学習性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:51:27Z) - Rethinking Client Drift in Federated Learning: A Logit Perspective [125.35844582366441]
フェデレートラーニング(FL)は、複数のクライアントが分散した方法で協調的に学習し、プライバシ保護を可能にする。
その結果,局所モデルとグローバルモデルとのロジット差は,モデルが継続的に更新されるにつれて増大することがわかった。
我々はFedCSDと呼ばれる新しいアルゴリズムを提案する。FedCSDは、ローカルモデルとグローバルモデルを調整するためのフェデレーションフレームワークにおけるクラスプロトタイプの類似度蒸留である。
論文 参考訳(メタデータ) (2023-08-20T04:41:01Z) - On the Convergence of Heterogeneous Federated Learning with Arbitrary
Adaptive Online Model Pruning [15.300983585090794]
任意適応型オンラインモデルプルーニングを用いた異種FLアルゴリズムの一元化フレームワークを提案する。
特に、ある十分な条件下では、これらのアルゴリズムは一般的なスムーズなコスト関数に対して標準FLの定常点に収束する。
コンバージェンスに影響を与える2つの要因として,プルーニング誘導雑音と最小カバレッジ指数を照らす。
論文 参考訳(メタデータ) (2022-01-27T20:43:38Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - Multi-Agent Reinforcement Learning in Stochastic Networked Systems [30.78949372661673]
エージェントネットワークにおけるマルチエージェント強化学習(MARL)について検討する。
目的は、世界的報酬を最大化する局所的な政策を見つけることである。
論文 参考訳(メタデータ) (2020-06-11T16:08:16Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。