論文の概要: Federated Offline Reinforcement Learning: Collaborative Single-Policy
Coverage Suffices
- arxiv url: http://arxiv.org/abs/2402.05876v1
- Date: Thu, 8 Feb 2024 18:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:37:50.801219
- Title: Federated Offline Reinforcement Learning: Collaborative Single-Policy
Coverage Suffices
- Title(参考訳): Federated Offline Reinforcement Learning:Collaborative Single-Policy Coverage Suffices
- Authors: Jiin Woo, Laixi Shi, Gauri Joshi, Yuejie Chi
- Abstract要約: オフライン強化学習(RL)は、オフラインデータを使用して最適なポリシーを学習しようとする。
この研究は、複数のエージェントでオフラインデータセットを協調的に活用することを目的とした、オフラインRLのためのフェデレーション学習のメリットを探求する。
FedLCB-Qは、フェデレートされたオフラインRLに適したモデルフリーQラーニングアルゴリズムの亜種である。
- 参考スコア(独自算出の注目度): 44.97418712091146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL), which seeks to learn an optimal policy
using offline data, has garnered significant interest due to its potential in
critical applications where online data collection is infeasible or expensive.
This work explores the benefit of federated learning for offline RL, aiming at
collaboratively leveraging offline datasets at multiple agents. Focusing on
finite-horizon episodic tabular Markov decision processes (MDPs), we design
FedLCB-Q, a variant of the popular model-free Q-learning algorithm tailored for
federated offline RL. FedLCB-Q updates local Q-functions at agents with novel
learning rate schedules and aggregates them at a central server using
importance averaging and a carefully designed pessimistic penalty term. Our
sample complexity analysis reveals that, with appropriately chosen parameters
and synchronization schedules, FedLCB-Q achieves linear speedup in terms of the
number of agents without requiring high-quality datasets at individual agents,
as long as the local datasets collectively cover the state-action space visited
by the optimal policy, highlighting the power of collaboration in the federated
setting. In fact, the sample complexity almost matches that of the single-agent
counterpart, as if all the data are stored at a central location, up to
polynomial factors of the horizon length. Furthermore, FedLCB-Q is
communication-efficient, where the number of communication rounds is only
linear with respect to the horizon length up to logarithmic factors.
- Abstract(参考訳): オフラインデータを用いた最適なポリシの学習を目指すオフライン強化学習(RL)は,オンラインデータ収集が不可能あるいは高価である重要なアプリケーションにおいて,大きな関心を集めている。
この研究は、複数のエージェントでオフラインデータセットを協調的に活用することを目的とした、オフラインrlのための連合学習の利点を探求する。
有限水平表層型マルコフ決定過程(MDPs)に着目し,フェデレーション付きオフラインRLに適したモデルフリーQ-ラーニングアルゴリズムであるFedLCB-Qを設計する。
FedLCB-Qは、新しい学習率スケジュールを持つエージェントのローカルQ関数を更新し、重要平均化と慎重に設計された悲観的なペナルティ項を用いて中央サーバに集約する。
サンプル複雑性分析により,federcb-qは,選択されたパラメータと同期スケジュールを用いて,個々のエージェントに対して高品質なデータセットを必要とせずに,エージェント数の観点から線形速度アップを実現する。
実際、サンプルの複雑さは、すべてのデータが中央の場所に格納されているかのように、水平線の長さの多項式係数まで、シングルエージェントのそれとほぼ一致する。
さらに、FedLCB-Qは通信効率が高く、通信ラウンドの数は対数的要因までの水平線長に対してのみ線形である。
関連論文リスト
- Federated Q-Learning: Linear Regret Speedup with Low Communication Cost [4.380110270510058]
本稿では,FedQ-HoeffdingとFedQ-Bernsteinという2つの連合Qラーニングアルゴリズムを提案する。
時間的地平線が十分に大きい場合, 対応する全後悔は, 単エージェントと比較して直線的なスピードアップを達成することを示す。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構に依存します。
論文 参考訳(メタデータ) (2023-12-22T19:14:09Z) - The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond [44.43850105124659]
地域データだけで訓練された局所的なQ-推定を周期的に集約することで、最適なQ-関数を学習することを目的とした、連合型Q-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-行動ペアに対して,重み付けを重要視する新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:18:59Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。