論文の概要: Federated Offline Policy Learning
- arxiv url: http://arxiv.org/abs/2305.12407v2
- Date: Fri, 11 Oct 2024 05:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:29:10.323219
- Title: Federated Offline Policy Learning
- Title(参考訳): フェデレートオフライン政策学習
- Authors: Aldo Gael Carranza, Susan Athey,
- Abstract要約: 複数の異種データソースにまたがる観測帯域フィードバックデータからパーソナライズされた意思決定ポリシーを学習する問題を考察する。
本稿では,全データソースに対するグローバルな後悔の概念と,任意のデータソースに対する局所的後悔の概念を区別し,有限サンプル上界を確立する新しい後悔分析を導入する。
本稿では,2つの堅牢なオフラインポリシ評価戦略で訓練されたローカルポリシの集約に基づいて,フェデレーションに適したポリシ学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.686875726947135
- License:
- Abstract: We consider the problem of learning personalized decision policies from observational bandit feedback data across multiple heterogeneous data sources. In our approach, we introduce a novel regret analysis that establishes finite-sample upper bounds on distinguishing notions of global regret for all data sources on aggregate and of local regret for any given data source. We characterize these regret bounds by expressions of source heterogeneity and distribution shift. Moreover, we examine the practical considerations of this problem in the federated setting where a central server aims to train a policy on data distributed across the heterogeneous sources without collecting any of their raw data. We present a policy learning algorithm amenable to federation based on the aggregation of local policies trained with doubly robust offline policy evaluation strategies. Our analysis and supporting experimental results provide insights into tradeoffs in the participation of heterogeneous data sources in offline policy learning.
- Abstract(参考訳): 複数の異種データソースにまたがる観測帯域フィードバックデータからパーソナライズされた意思決定ポリシーを学習する問題を考察する。
本稿では,各データソースに対する全データソースに対するグローバルな後悔の概念と,任意のデータソースに対するローカルな後悔の概念を区別する上で,有限サンプル上限を確立する新しい後悔分析を導入する。
我々はこれらの後悔境界を、源の不均一性と分布シフトの表現によって特徴づける。
さらに,集中サーバが生データを収集することなく異種ソースに分散したデータに対するポリシーを訓練することを目的としたフェデレーション環境において,この問題の実践的考察を行う。
本稿では,2つの堅牢なオフラインポリシ評価戦略で訓練されたローカルポリシの集約に基づいて,フェデレーションに適したポリシ学習アルゴリズムを提案する。
オフライン政策学習における異種データソースの関与に関するトレードオフについて分析し,実験結果を支援する。
関連論文リスト
- Robust Offline Policy Learning with Observational Data from Multiple Sources [4.686875726947135]
そこで本研究では,ソース分布の一般混合下での一意に低い後悔を保証するために,ミニマックス後悔最適化手法を提案する。
我々は,この目的に合わせたポリシー学習アルゴリズムを開発し,2つの頑健なオフラインポリシー評価手法と,最小限の最適化のための非回帰学習アルゴリズムを組み合わせた。
論文 参考訳(メタデータ) (2024-10-11T05:16:23Z) - DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.323173093804897]
オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。
最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。
拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T13:15:40Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。