論文の概要: Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments
- arxiv url: http://arxiv.org/abs/2302.11725v1
- Date: Thu, 23 Feb 2023 01:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:37:53.724101
- Title: Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments
- Title(参考訳): 非定常環境における旧データ再利用時の漸近的非偏平政策評価
- Authors: Vincent Liu, Yash Chandak, Philip Thomas, Martha White
- Abstract要約: 回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
- 参考スコア(独自算出の注目度): 31.492146288630515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the off-policy policy evaluation problem for
contextual bandits and finite horizon reinforcement learning in the
nonstationary setting. Reusing old data is critical for policy evaluation, but
existing estimators that reuse old data introduce large bias such that we can
not obtain a valid confidence interval. Inspired from a related field called
survey sampling, we introduce a variant of the doubly robust (DR) estimator,
called the regression-assisted DR estimator, that can incorporate the past data
without introducing a large bias. The estimator unifies several existing
off-policy policy evaluation methods and improves on them with the use of
auxiliary information and a regression approach. We prove that the new
estimator is asymptotically unbiased, and provide a consistent variance
estimator to a construct a large sample confidence interval. Finally, we
empirically show that the new estimator improves estimation for the current and
future policy values, and provides a tight and valid interval estimation in
several nonstationary recommendation environments.
- Abstract(参考訳): 本研究では,非定常環境におけるコンテキストバンディットと有限地平線強化学習におけるオフポリシー政策評価問題について考察する。
古いデータを再利用することはポリシー評価に不可欠であるが、古いデータを再利用する既存の推定者は、信頼できる信頼区間を得ることができないような大きなバイアスをもたらす。
調査サンプリングと呼ばれる関連分野から着想を得た、回帰支援DR推定器と呼ばれる二重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
この推定器は、いくつかの既存のオフポリシー評価手法を統一し、補助情報と回帰アプローチを用いて改善する。
我々は,新しい推定器が漸近的に偏りがないことを証明し,サンプル信頼区間の大きな構成に一貫した分散推定器を提供する。
最後に、新しい推定器が現在および将来の政策値の推定を改善し、いくつかの非定常レコメンデーション環境において、厳密かつ有効な間隔推定を提供することを示す。
関連論文リスト
- OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Counterfactual-Augmented Importance Sampling for Semi-Offline Policy
Evaluation [13.325600043256552]
そこで本研究では,ヒトが観測不能な反事実軌道のアノテーションを提供する半オフライン評価フレームワークを提案する。
提案手法は,アノテーション・ソリケーションの原則に基づく設計と組み合わせることで,高次の領域における強化学習の活用を可能にする。
論文 参考訳(メタデータ) (2023-10-26T04:41:19Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。