論文の概要: Policy Learning with Adaptively Collected Data
- arxiv url: http://arxiv.org/abs/2105.02344v1
- Date: Wed, 5 May 2021 22:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:35:15.357199
- Title: Policy Learning with Adaptively Collected Data
- Title(参考訳): 適応収集データを用いた政策学習
- Authors: Ruohan Zhan, Zhimei Ren, Susan Athey, Zhengyuan Zhou
- Abstract要約: 適応的に収集されたデータで最適な政策を学ぶという課題に対処します。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。
合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
- 参考スコア(独自算出の注目度): 22.839095992238537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning optimal policies from historical data enables the gains from
personalization to be realized in a wide variety of applications. The growing
policy learning literature focuses on a setting where the treatment assignment
policy does not adapt to the data. However, adaptive data collection is
becoming more common in practice, from two primary sources: 1) data collected
from adaptive experiments that are designed to improve inferential efficiency;
2) data collected from production systems that are adaptively evolving an
operational policy to improve performance over time (e.g. contextual bandits).
In this paper, we aim to address the challenge of learning the optimal policy
with adaptively collected data and provide one of the first theoretical
inquiries into this problem. We propose an algorithm based on generalized
augmented inverse propensity weighted estimators and establish its
finite-sample regret bound. We complement this regret upper bound with a lower
bound that characterizes the fundamental difficulty of policy learning with
adaptive data. Finally, we demonstrate our algorithm's effectiveness using both
synthetic data and public benchmark datasets.
- Abstract(参考訳): 履歴データから最適なポリシーを学ぶことで、パーソナライズによる利益を様々なアプリケーションで実現することができる。
成長する政策学習文献は、治療割当方針がデータに適応しない設定に焦点を当てている。
しかし、適応データ収集は、1)推論効率を改善するために設計された適応実験から収集されたデータ、2)時間とともにパフォーマンスを改善するために運用方針を適応的に進化させている生産システムから収集されたデータである。
文脈的盗賊)
本稿では,適応的に収集したデータを用いて最適方針を学習する課題に対処し,この問題に対する最初の理論的質問の1つを提供する。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案し,その有限サンプル後悔境界を確立する。
この後悔の上限を、適応型データを用いた政策学習の基本的な難しさを特徴付ける下限で補う。
最後に、合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を示す。
関連論文リスト
- Doubly Optimal Policy Evaluation for Reinforcement Learning [16.7091722884524]
政策評価は、しばしば大きなばらつきに悩まされ、望ましい精度を達成するために大量のデータを必要とする。
本研究では,データ収集ポリシーとデータ処理ベースラインの最適組み合わせを設計する。
理論的には、我々の二重最適政策評価法は偏りがなく、従来よりも分散度が低いことが保証されている。
論文 参考訳(メタデータ) (2024-10-03T05:47:55Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - When to Learn What: Model-Adaptive Data Augmentation Curriculum [32.99634881669643]
本稿では,モデル適応型データ拡張(MADAug)を提案する。
従来の作業とは異なり、MADAugはトレーニング段階によって異なるモデル適応ポリシーにより、各入力画像に対する拡張演算子を選択し、より良い一般化のために最適化されたデータ拡張カリキュラムを生成する。
論文 参考訳(メタデータ) (2023-09-09T10:35:27Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。
我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文 参考訳(メタデータ) (2021-12-23T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。