論文の概要: Doubly Robust Interval Estimation for Optimal Policy Evaluation in
Online Learning
- arxiv url: http://arxiv.org/abs/2110.15501v1
- Date: Fri, 29 Oct 2021 02:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:14:44.799291
- Title: Doubly Robust Interval Estimation for Optimal Policy Evaluation in
Online Learning
- Title(参考訳): オンライン学習における最適政策評価のための二重ロバスト区間推定
- Authors: Hengrui Cai, Ye Shen, Rui Song
- Abstract要約: 本稿では,オンライン学習における政策評価の難しさを克服することを目的とする。
非最適行動を探索する確率を定量化する探索の確率を導出する。
そこで本稿では,推定された最適ポリシーの下で値を推定するために,二重頑健区間推定法(DREAM)を開発した。
- 参考スコア(独自算出の注目度): 8.318053414415903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the performance of an ongoing policy plays a vital role in many
areas such as medicine and economics, to provide crucial instruction on the
early-stop of the online experiment and timely feedback from the environment.
Policy evaluation in online learning thus attracts increasing attention by
inferring the mean outcome of the optimal policy (i.e., the value) in
real-time. Yet, such a problem is particularly challenging due to the dependent
data generated in the online environment, the unknown optimal policy, and the
complex exploration and exploitation trade-off in the adaptive experiment. In
this paper, we aim to overcome these difficulties in policy evaluation for
online learning. We explicitly derive the probability of exploration that
quantifies the probability of exploring the non-optimal actions under commonly
used bandit algorithms. We use this probability to conduct valid inference on
the online conditional mean estimator under each action and develop the doubly
robust interval estimation (DREAM) method to infer the value under the
estimated optimal policy in online learning. The proposed value estimator
provides double protection on the consistency and is asymptotically normal with
a Wald-type confidence interval provided. Extensive simulations and real data
applications are conducted to demonstrate the empirical validity of the
proposed DREAM method.
- Abstract(参考訳): 継続的な政策の評価は、オンライン実験の早期停止と環境からのタイムリーなフィードバックに関する重要な指導を提供するため、医学や経済学など多くの分野において重要な役割を果たす。
オンライン学習における政策評価は、最適政策(すなわち、その価値)の平均的な結果をリアルタイムで推測することによって、注目を集める。
しかし、オンライン環境で生成された依存データ、未知の最適方針、適応実験における複雑な探索と搾取のトレードオフなどにより、このような問題は特に困難である。
本稿では,オンライン学習における政策評価の難しさを克服することを目的とする。
一般に用いられるバンディットアルゴリズムの下での非最適動作を探索する確率を定量化する探索の確率を明示的に導出する。
この確率を用いて,オンライン条件付平均推定器の有効推定を行い,オンライン学習における推定最適方針に基づく値を推定する2倍ロバスト区間推定(dream)法を開発した。
提案した値推定器は、一貫性を二重に保護し、ウォルド型信頼区間を設けた漸近的に正常である。
提案手法の実証的妥当性を示すため, 大規模シミュレーションと実データ応用を行った。
関連論文リスト
- Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文 参考訳(メタデータ) (2023-10-10T19:47:27Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - Towards Robust Off-policy Learning for Runtime Uncertainty [28.425951919439783]
オフラインの学習は、オンライン展開の前にポリシーを最適化し、評価する上で重要な役割を担います。
実行時不確実性は、異常とまれな性質のため、ログデータから学べない。
本稿では, 逆確率スコア法, 報酬モデル法, 二重頑健な3つの非政治学習法に, 実行時不確かさの頑健さをもたらす。
論文 参考訳(メタデータ) (2022-02-27T10:51:02Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。