論文の概要: Federated Offline Policy Learning with Heterogeneous Observational Data
- arxiv url: http://arxiv.org/abs/2305.12407v1
- Date: Sun, 21 May 2023 09:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:43:52.207069
- Title: Federated Offline Policy Learning with Heterogeneous Observational Data
- Title(参考訳): 不均一観測データを用いたフェデレーションオフライン政策学習
- Authors: Aldo Gael Carranza, Susan Athey
- Abstract要約: 異種データからの観測データにパーソナライズされた決定ポリシーを学習することの問題点を考察する。
本稿では,2つの堅牢なオフラインポリシ評価と学習戦略で訓練されたローカルポリシの集約に基づく,フェデレートされたポリシー学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.20608597274124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning personalized decision policies on
observational data from heterogeneous data sources. Moreover, we examine this
problem in the federated setting where a central server aims to learn a policy
on the data distributed across the heterogeneous sources without exchanging
their raw data. We present a federated policy learning algorithm based on
aggregation of local policies trained with doubly robust offline policy
evaluation and learning strategies. We provide a novel regret analysis for our
approach that establishes a finite-sample upper bound on a notion of global
regret across a distribution of clients. In addition, for any individual
client, we establish a corresponding local regret upper bound characterized by
the presence of distribution shift relative to all other clients. We support
our theoretical findings with experimental results. Our analysis and
experiments provide insights into the value of heterogeneous client
participation in federation for policy learning in heterogeneous settings.
- Abstract(参考訳): 異種データソースからの観測データに対するパーソナライズされた意思決定方針の学習の問題を考える。
さらに,この課題を,中央サーバが生データを交換することなく異種ソースに分散したデータに関するポリシーを学習することを目的としたフェデレート環境で検討する。
本稿では,2つの堅牢なオフラインポリシ評価と学習戦略で訓練されたローカルポリシの集約に基づく,フェデレートされたポリシー学習アルゴリズムを提案する。
我々は,クライアントの分布にまたがる世界的後悔の概念に基づいて,有限サンプル上界を確立するアプローチに対して,新たな後悔分析を行う。
さらに, 個々のクライアントに対して, 他のクライアントに対する分布シフトの存在を特徴とする, 対応する局所的後悔上限を確立する。
実験結果で理論的結果を支持する。
分析と実験により、不均一な環境下での政策学習のためのフェデレーションにおける不均一なクライアント参加の価値についての洞察が得られる。
関連論文リスト
- Robust Offline Policy Learning with Observational Data from Multiple Sources [4.686875726947135]
そこで本研究では,ソース分布の一般混合下での一意に低い後悔を保証するために,ミニマックス後悔最適化手法を提案する。
我々は,この目的に合わせたポリシー学習アルゴリズムを開発し,2つの頑健なオフラインポリシー評価手法と,最小限の最適化のための非回帰学習アルゴリズムを組み合わせた。
論文 参考訳(メタデータ) (2024-10-11T05:16:23Z) - DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.323173093804897]
オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。
最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。
拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T13:15:40Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。