論文の概要: Policy Learning with Adaptively Collected Data
- arxiv url: http://arxiv.org/abs/2105.02344v1
- Date: Wed, 5 May 2021 22:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:35:15.357199
- Title: Policy Learning with Adaptively Collected Data
- Title(参考訳): 適応収集データを用いた政策学習
- Authors: Ruohan Zhan, Zhimei Ren, Susan Athey, Zhengyuan Zhou
- Abstract要約: 適応的に収集されたデータで最適な政策を学ぶという課題に対処します。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。
合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
- 参考スコア(独自算出の注目度): 22.839095992238537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning optimal policies from historical data enables the gains from
personalization to be realized in a wide variety of applications. The growing
policy learning literature focuses on a setting where the treatment assignment
policy does not adapt to the data. However, adaptive data collection is
becoming more common in practice, from two primary sources: 1) data collected
from adaptive experiments that are designed to improve inferential efficiency;
2) data collected from production systems that are adaptively evolving an
operational policy to improve performance over time (e.g. contextual bandits).
In this paper, we aim to address the challenge of learning the optimal policy
with adaptively collected data and provide one of the first theoretical
inquiries into this problem. We propose an algorithm based on generalized
augmented inverse propensity weighted estimators and establish its
finite-sample regret bound. We complement this regret upper bound with a lower
bound that characterizes the fundamental difficulty of policy learning with
adaptive data. Finally, we demonstrate our algorithm's effectiveness using both
synthetic data and public benchmark datasets.
- Abstract(参考訳): 履歴データから最適なポリシーを学ぶことで、パーソナライズによる利益を様々なアプリケーションで実現することができる。
成長する政策学習文献は、治療割当方針がデータに適応しない設定に焦点を当てている。
しかし、適応データ収集は、1)推論効率を改善するために設計された適応実験から収集されたデータ、2)時間とともにパフォーマンスを改善するために運用方針を適応的に進化させている生産システムから収集されたデータである。
文脈的盗賊)
本稿では,適応的に収集したデータを用いて最適方針を学習する課題に対処し,この問題に対する最初の理論的質問の1つを提供する。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案し,その有限サンプル後悔境界を確立する。
この後悔の上限を、適応型データを用いた政策学習の基本的な難しさを特徴付ける下限で補う。
最後に、合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を示す。
関連論文リスト
- Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - When to Learn What: Model-Adaptive Data Augmentation Curriculum [32.99634881669643]
本稿では,モデル適応型データ拡張(MADAug)を提案する。
従来の作業とは異なり、MADAugはトレーニング段階によって異なるモデル適応ポリシーにより、各入力画像に対する拡張演算子を選択し、より良い一般化のために最適化されたデータ拡張カリキュラムを生成する。
論文 参考訳(メタデータ) (2023-09-09T10:35:27Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。
我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文 参考訳(メタデータ) (2021-12-23T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。