論文の概要: Federated Temporal Difference Learning with Linear Function
Approximation under Environmental Heterogeneity
- arxiv url: http://arxiv.org/abs/2302.02212v1
- Date: Sat, 4 Feb 2023 17:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:28:00.928228
- Title: Federated Temporal Difference Learning with Linear Function
Approximation under Environmental Heterogeneity
- Title(参考訳): 環境不均質性を考慮した線形関数近似による連立時間差分学習
- Authors: Han Wang, Aritra Mitra, Hamed Hassani, George J. Pappas, James
Anderson
- Abstract要約: モデル推定の交換により,エージェント数の線形収束速度が向上することを示す。
低ヘテロジニティ系では、モデル推定を交換すると、エージェントの数で線形収束速度が向上する。
- 参考スコア(独自算出の注目度): 33.21929593049226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We initiate the study of federated reinforcement learning under environmental
heterogeneity by considering a policy evaluation problem. Our setup involves
$N$ agents interacting with environments that share the same state and action
space but differ in their reward functions and state transition kernels.
Assuming agents can communicate via a central server, we ask: Does exchanging
information expedite the process of evaluating a common policy? To answer this
question, we provide the first comprehensive finite-time analysis of a
federated temporal difference (TD) learning algorithm with linear function
approximation, while accounting for Markovian sampling, heterogeneity in the
agents' environments, and multiple local updates to save communication. Our
analysis crucially relies on several novel ingredients: (i) deriving
perturbation bounds on TD fixed points as a function of the heterogeneity in
the agents' underlying Markov decision processes (MDPs); (ii) introducing a
virtual MDP to closely approximate the dynamics of the federated TD algorithm;
and (iii) using the virtual MDP to make explicit connections to federated
optimization. Putting these pieces together, we rigorously prove that in a
low-heterogeneity regime, exchanging model estimates leads to linear
convergence speedups in the number of agents.
- Abstract(参考訳): 政策評価問題を考慮して,環境不均質性下での連帯強化学習の研究を開始する。
我々のセットアップは、同じ状態とアクション空間を共有するが、報酬関数と状態遷移カーネルが異なる環境と相互作用する$N$エージェントを含んでいる。
エージェントが中央サーバーを介して通信できると仮定すると、情報交換は共通のポリシーを評価するプロセスを早めるだろうか?
そこで我々は,マルコフ的サンプリング,エージェントの環境の不均一性,通信の節約のための複数の局所的更新を考慮しつつ,線形関数近似を用いたフェデレーション時間差学習アルゴリズム(TD)の総合的有限時間解析を行った。
私たちの分析はいくつかの新しい材料に依存しています
i) エージェントの基本マルコフ決定過程(MDPs)における不均一性の関数としてのTD固定点上の摂動境界の導出
(II)フェデレートされたTDアルゴリズムの力学を密に近似する仮想MDPを導入し、
(iii) 仮想MDPを用いて、フェデレーション最適化に明示的な接続を行う。
これらの部品を組み立てることで、低均一性状態において、モデル推定の交換がエージェント数の線形収束速度向上につながることを厳密に証明する。
関連論文リスト
- Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。
勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文 参考訳(メタデータ) (2024-09-09T02:59:17Z) - Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning [8.632943870358627]
フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。
本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。
我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-01-27T02:43:45Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Policy Evaluation in Decentralized POMDPs with Belief Sharing [39.550233049869036]
エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
論文 参考訳(メタデータ) (2023-02-08T15:54:15Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。