論文の概要: Confident Off-Policy Evaluation and Selection through Self-Normalized
Importance Weighting
- arxiv url: http://arxiv.org/abs/2006.10460v3
- Date: Mon, 21 Mar 2022 11:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 12:37:37.720057
- Title: Confident Off-Policy Evaluation and Selection through Self-Normalized
Importance Weighting
- Title(参考訳): 自己Normalized Importance Weightingによる政策外評価と選択の信頼性
- Authors: Ilja Kuzborskij, Claire Vernade, Andr\'as Gy\"orgy, Csaba Szepesv\'ari
- Abstract要約: 本稿では,任意のターゲットポリシーの値に対する下位境界を計算するための新しい手法を提案する。
この新しいアプローチは、多くの合成データセットと実際のデータセットに基づいて評価されており、主要な競合相手よりも優れていることが判明している。
- 参考スコア(独自算出の注目度): 15.985182419152197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider off-policy evaluation in the contextual bandit setting for the
purpose of obtaining a robust off-policy selection strategy, where the
selection strategy is evaluated based on the value of the chosen policy in a
set of proposal (target) policies. We propose a new method to compute a lower
bound on the value of an arbitrary target policy given some logged data in
contextual bandits for a desired coverage. The lower bound is built around the
so-called Self-normalized Importance Weighting (SN) estimator. It combines the
use of a semi-empirical Efron-Stein tail inequality to control the
concentration and a new multiplicative (rather than additive) control of the
bias. The new approach is evaluated on a number of synthetic and real datasets
and is found to be superior to its main competitors, both in terms of tightness
of the confidence intervals and the quality of the policies chosen.
- Abstract(参考訳): 提案(ターゲット)ポリシーの集合において、選択されたポリシーの価値に基づいて選択戦略を評価する、堅牢なオフポリシー選択戦略を得るために、コンテキストバンディット設定におけるオフポリシー評価を検討する。
本稿では,任意の対象ポリシーの値に対する下限を計算する新しい手法を提案する。
下限はいわゆる自己正規化重要度重み付け(SN)推定器を中心に構築されている。
半経験的エフロン・シュタイン尾不等式を用いて濃度を制御し、バイアスを(加法ではなく)新しい乗法的に制御する。
新しいアプローチは、多くの合成データセットと実際のデータセットで評価され、信頼区間の厳密さと選択されたポリシーの品質の両方において、主要な競合相手よりも優れていることが判明した。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。