論文の概要: Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2401.15273v1
- Date: Sat, 27 Jan 2024 02:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:15:02.882504
- Title: Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement
Learning
- Title(参考訳): オンライン不均一フェデレーション強化学習の有限時間解析
- Authors: Chenyu Zhang, Han Wang, Aritra Mitra, James Anderson
- Abstract要約: フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。
本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。
我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 9.430870991907726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated reinforcement learning (FRL) has emerged as a promising paradigm
for reducing the sample complexity of reinforcement learning tasks by
exploiting information from different agents. However, when each agent
interacts with a potentially different environment, little to nothing is known
theoretically about the non-asymptotic performance of FRL algorithms. The lack
of such results can be attributed to various technical challenges and their
intricate interplay: Markovian sampling, linear function approximation,
multiple local updates to save communication, heterogeneity in the reward
functions and transition kernels of the agents' MDPs, and continuous
state-action spaces. Moreover, in the on-policy setting, the behavior policies
vary with time, further complicating the analysis. In response, we introduce
FedSARSA, a novel federated on-policy reinforcement learning scheme, equipped
with linear function approximation, to address these challenges and provide a
comprehensive finite-time error analysis. Notably, we establish that FedSARSA
converges to a policy that is near-optimal for all agents, with the extent of
near-optimality proportional to the level of heterogeneity. Furthermore, we
prove that FedSARSA leverages agent collaboration to enable linear speedups as
the number of agents increases, which holds for both fixed and adaptive
step-size configurations.
- Abstract(参考訳): フェデレーション強化学習(frl)は、異なるエージェントからの情報を活用して強化学習タスクのサンプル複雑さを減らすための有望なパラダイムとして登場した。
しかしながら、各エージェントが潜在的に異なる環境と相互作用する場合、FRLアルゴリズムの非漸近的性能について理論的にはほとんど知られていない。
このような結果の欠如は、マルコフのサンプリング、線形関数近似、通信を節約するための複数の局所更新、エージェントのmdpの報酬関数と遷移核の不均一性、連続状態-アクション空間など、様々な技術的課題と複雑な相互作用によって引き起こされる。
さらに、政治状況においては、行動方針は時間によって異なり、分析をさらに複雑にする。
そこで我々は,これらの課題に対処し,包括的有限時間誤差解析を提供するために,線形関数近似を備えた新しいオンライン強化学習手法であるFedSARSAを導入する。
特筆すべきは、フェザーサが全てのエージェントにとって最適に近い政策に収束し、準最適度が不均質のレベルに比例する程度に収束することである。
さらに,federsaがエージェントコラボレーションを利用して,エージェント数の増加に伴ってリニアなスピードアップを実現することを証明した。
関連論文リスト
- SCAFFLSA: Quantifying and Eliminating Heterogeneity Bias in Federated
Linear Stochastic Approximation and Temporal Difference Learning [15.398826197774083]
異種エージェントを用いた局所訓練で導入されたバイアスを明示的に定量化する。
本稿では,FedLSAの新たな変種であるSCAFFLSAを提案する。
論文 参考訳(メタデータ) (2024-02-06T16:06:59Z) - Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Multi-agent Policy Reciprocity with Theoretical Guarantee [24.65151626601257]
提案手法は,不一致状態においてもエージェント間政策を完全に活用できる,新しいマルチエージェントポリシー相互性(PR)フレームワークを提案する。
離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。
論文 参考訳(メタデータ) (2023-04-12T06:27:10Z) - Federated Learning as Variational Inference: A Scalable Expectation
Propagation Approach [66.9033666087719]
本稿では,推論の視点を拡張し,フェデレート学習の変分推論の定式化について述べる。
我々は、FedEPを標準フェデレーション学習ベンチマークに適用し、収束速度と精度の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-02-08T17:58:11Z) - Federated Temporal Difference Learning with Linear Function
Approximation under Environmental Heterogeneity [33.21929593049226]
モデル推定の交換により,エージェント数の線形収束速度が向上することを示す。
低ヘテロジニティ系では、モデル推定を交換すると、エージェントの数で線形収束速度が向上する。
論文 参考訳(メタデータ) (2023-02-04T17:53:55Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。