論文の概要: Federated Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.05581v3
- Date: Sat, 27 Jan 2024 16:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 01:02:47.431156
- Title: Federated Offline Reinforcement Learning
- Title(参考訳): フェデレーションオフライン強化学習
- Authors: Doudou Zhou, Yufeng Zhang, Aaron Sonabend-W, Zhaoran Wang, Junwei Lu,
Tianxi Cai
- Abstract要約: マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
- 参考スコア(独自算出の注目度): 55.326673977320574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evidence-based or data-driven dynamic treatment regimes are essential for
personalized medicine, which can benefit from offline reinforcement learning
(RL). Although massive healthcare data are available across medical
institutions, they are prohibited from sharing due to privacy constraints.
Besides, heterogeneity exists in different sites. As a result, federated
offline RL algorithms are necessary and promising to deal with the problems. In
this paper, we propose a multi-site Markov decision process model that allows
for both homogeneous and heterogeneous effects across sites. The proposed model
makes the analysis of the site-level features possible. We design the first
federated policy optimization algorithm for offline RL with sample complexity.
The proposed algorithm is communication-efficient, which requires only a single
round of communication interaction by exchanging summary statistics. We give a
theoretical guarantee for the proposed algorithm, where the suboptimality for
the learned policies is comparable to the rate as if data is not distributed.
Extensive simulations demonstrate the effectiveness of the proposed algorithm.
The method is applied to a sepsis dataset in multiple sites to illustrate its
use in clinical settings.
- Abstract(参考訳): Evidence-based or data-driven dynamic treatment systemsは、オフライン強化学習(RL)の恩恵を受け得るパーソナライズド医療に不可欠である。
医療データは医療機関で利用できるが、プライバシー上の制約により共有は禁止されている。
さらに、異質性は異なる場所に存在する。
その結果、フェデレーションされたオフラインrlアルゴリズムが必要となり、問題に対処することを約束する。
本稿では,サイト間の均一効果と不均質効果の両方を可能にするマルチサイトマルコフ決定過程モデルを提案する。
提案モデルにより,サイトレベルの特徴の分析が可能となる。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムは通信効率が高く,要約統計を交換することで1ラウンドの通信インタラクションしか必要としない。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
大規模なシミュレーションにより,提案アルゴリズムの有効性が示された。
この方法は、複数のサイトにあるsepsisデータセットに適用され、臨床環境での使用を説明する。
関連論文リスト
- Causal prompting model-based offline reinforcement learning [16.95292725275873]
モデルベースのオフラインRLでは、エージェントは追加または非倫理的な探索を必要とせずに、事前にコンパイルされたデータセットを完全に活用することができる。
モデルベースのオフラインRLをオンラインシステムに適用することは、高度に最適化された(ノイズが満ちた)、オンラインシステムによって生成されたデータセットの多様な性質による課題を示す。
本稿では,高度に最適化されたリソース制約のあるオンラインシナリオを対象としたCausal Prompting Reinforcement Learningフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-06-03T07:28:57Z) - Communication-Efficient Hybrid Federated Learning for E-health with Horizontal and Vertical Data Partitioning [67.49221252724229]
E-Healthは、スマートデバイスや医療機関が患者のデータを共同で収集することを可能にする。
eヘルスにフェデレートされた学習を適用することは、多くの課題に直面します。
医療データは水平および垂直に分割される。
HFLとVFLの単純な組み合わせには、訓練効率の低下、難聴収束分析、パラメータチューニング戦略の欠如など、制限がある。
論文 参考訳(メタデータ) (2024-04-15T19:45:07Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Resource-constrained Federated Edge Learning with Heterogeneous Data:
Formulation and Analysis [8.863089484787835]
ヘテロジニアスデータによる不均一な統計的課題を解決するために, 分散されたニュートン型ニュートン型トレーニングスキームであるFedOVAを提案する。
FedOVAはマルチクラス分類問題をより単純なバイナリ分類問題に分解し、アンサンブル学習を用いてそれぞれの出力を結合する。
論文 参考訳(メタデータ) (2021-10-14T17:35:24Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。