Fugu-MT 論文翻訳(概要): Policy Learning with Adaptively Collected Data

論文の概要: Policy Learning with Adaptively Collected Data

arxiv url: http://arxiv.org/abs/2105.02344v1
Date: Wed, 5 May 2021 22:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 13:35:15.357199
Title: Policy Learning with Adaptively Collected Data
Title（参考訳）: 適応収集データを用いた政策学習
Authors: Ruohan Zhan, Zhimei Ren, Susan Athey, Zhengyuan Zhou
Abstract要約: 適応的に収集されたデータで最適な政策を学ぶという課題に対処します。一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
参考スコア（独自算出の注目度）: 22.839095992238537
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning optimal policies from historical data enables the gains from personalization to be realized in a wide variety of applications. The growing policy learning literature focuses on a setting where the treatment assignment policy does not adapt to the data. However, adaptive data collection is becoming more common in practice, from two primary sources: 1) data collected from adaptive experiments that are designed to improve inferential efficiency; 2) data collected from production systems that are adaptively evolving an operational policy to improve performance over time (e.g. contextual bandits). In this paper, we aim to address the challenge of learning the optimal policy with adaptively collected data and provide one of the first theoretical inquiries into this problem. We propose an algorithm based on generalized augmented inverse propensity weighted estimators and establish its finite-sample regret bound. We complement this regret upper bound with a lower bound that characterizes the fundamental difficulty of policy learning with adaptive data. Finally, we demonstrate our algorithm's effectiveness using both synthetic data and public benchmark datasets.
Abstract（参考訳）: 履歴データから最適なポリシーを学ぶことで、パーソナライズによる利益を様々なアプリケーションで実現することができる。成長する政策学習文献は、治療割当方針がデータに適応しない設定に焦点を当てている。しかし、適応データ収集は、1)推論効率を改善するために設計された適応実験から収集されたデータ、2)時間とともにパフォーマンスを改善するために運用方針を適応的に進化させている生産システムから収集されたデータである。文脈的盗賊) 本稿では,適応的に収集したデータを用いて最適方針を学習する課題に対処し,この問題に対する最初の理論的質問の1つを提供する。一般化された逆確率重み付き推定器に基づくアルゴリズムを提案し,その有限サンプル後悔境界を確立する。この後悔の上限を、適応型データを用いた政策学習の基本的な難しさを特徴付ける下限で補う。最後に、合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を示す。

関連論文リスト

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data [3.6714630660726586]
オフライン強化学習(RL)は,事前収集したデータを活用することで,期待される全報酬を最大化するために,動的環境における最適ポリシーを見つけることを目的としている。従来の手法では、単一のエピソードや均質なバッチエピソードから事前に収集されたデータを持つすべての個人に対して最適なポリシーを学ぶことに重点を置いている。異種時間定常マルコフ決定プロセスのための個別化オフラインポリシー最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-14T15:44:10Z)
Doubly Optimal Policy Evaluation for Reinforcement Learning [16.7091722884524]
政策評価は、しばしば大きなばらつきに悩まされ、望ましい精度を達成するために大量のデータを必要とする。本研究では,データ収集ポリシーとデータ処理ベースラインの最適組み合わせを設計する。理論的には、我々の二重最適政策評価法は偏りがなく、従来よりも分散度が低いことが保証されている。
論文参考訳（メタデータ） (2024-10-03T05:47:55Z)
Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。本稿では,関数近似に適合する2つの実験計画戦略を提案する。そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文参考訳（メタデータ） (2024-01-10T14:40:23Z)
When to Learn What: Model-Adaptive Data Augmentation Curriculum [32.99634881669643]
本稿では,モデル適応型データ拡張(MADAug)を提案する。従来の作業とは異なり、MADAugはトレーニング段階によって異なるモデル適応ポリシーにより、各入力画像に対する拡張演算子を選択し、より良い一般化のために最適化されたデータ拡張カリキュラムを生成する。
論文参考訳（メタデータ） (2023-09-09T10:35:27Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文参考訳（メタデータ） (2021-12-23T02:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。