論文の概要: Statistical Bootstrapping for Uncertainty Estimation in Off-Policy
Evaluation
- arxiv url: http://arxiv.org/abs/2007.13609v1
- Date: Mon, 27 Jul 2020 14:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 07:43:38.248624
- Title: Statistical Bootstrapping for Uncertainty Estimation in Off-Policy
Evaluation
- Title(参考訳): オフポリティ評価における不確かさ推定のための統計的ブートストラップ
- Authors: Ilya Kostrikov and Ofir Nachum
- Abstract要約: 本研究は,政策の真の価値を校正した信頼区間を生成する手段として,統計的ブートストラップの可能性について検討する。
本研究では, 連続制御環境や小規模なデータ体制など, 様々な条件下で精度の高い信頼区間が得られることを示す。
- 参考スコア(独自算出の注目度): 38.31971190670345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, it is typical to use the empirically observed
transitions and rewards to estimate the value of a policy via either
model-based or Q-fitting approaches. Although straightforward, these techniques
in general yield biased estimates of the true value of the policy. In this
work, we investigate the potential for statistical bootstrapping to be used as
a way to take these biased estimates and produce calibrated confidence
intervals for the true value of the policy. We identify conditions -
specifically, sufficient data size and sufficient coverage - under which
statistical bootstrapping in this setting is guaranteed to yield correct
confidence intervals. In practical situations, these conditions often do not
hold, and so we discuss and propose mechanisms that can be employed to mitigate
their effects. We evaluate our proposed method and show that it can yield
accurate confidence intervals in a variety of conditions, including challenging
continuous control environments and small data regimes.
- Abstract(参考訳): 強化学習では、経験的に観察された遷移と報酬を用いて、モデルベースまたはQ適合アプローチによって政策の価値を推定することが典型的である。
単純ではあるが、これらの手法は概して政策の真の価値をバイアスで見積もっている。
本研究では,これらの偏りのある推定値を取り込んで,政策の真価に対する信頼区間を校正する方法として,統計的ブートストラップの可能性について検討する。
この設定で統計的なブートストラップが保証され、正しい信頼区間が得られるという条件に特化して、十分なデータサイズと十分なカバレッジを識別する。
実際の状況では,これらの条件はしばしば保持されないため,その効果を緩和するためのメカニズムを議論し,提案する。
提案手法を評価し,連続制御環境への挑戦や小型データレジームなど,様々な条件下で正確な信頼区間が得られることを示す。
関連論文リスト
- Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z) - Evaluating the Effectiveness of Index-Based Treatment Allocation [42.040099398176665]
リソースが不足している場合には、リソースを誰が受け取るかを決定するためにアロケーションポリシーが必要である。
本稿では、ランダム化制御試験のデータを用いて、インデックスベースのアロケーションポリシーを評価する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:55:55Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Off-Policy Confidence Interval Estimation with Confounded Markov
Decision Process [14.828039846764549]
システム力学における動作の影響を媒介する補助変数によっては、マルコフ決定過程において対象ポリシーの値が識別可能であることを示す。
提案手法は, ライドシェアリング会社から得られた理論的結果, シミュレーション, 実データによって正当化される。
論文 参考訳(メタデータ) (2022-02-22T00:03:48Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。