論文の概要: Off-Policy Risk Assessment in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2104.08977v1
- Date: Sun, 18 Apr 2021 23:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 05:40:13.619062
- Title: Off-Policy Risk Assessment in Contextual Bandits
- Title(参考訳): 文脈帯域におけるオフポリシィリスクアセスメント
- Authors: Audrey Huang, Liu Leqi, Zachary C. Lipton, Kamyar Azizzadenesheli
- Abstract要約: 多くの共通函数を推定するLipschitzリスク関数のクラスを紹介します。
リプシッツリスク汎関数では、オフポリシー推定の誤差は、報酬の累積分布関数(cdf)のオフポリシー推定の誤差によって制限される。
我々は,対象政策の報酬のCDFを推定し,リスクのプラグイン推定を生成するアルゴリズムであるOff-Policy Risk Assessment (OPRA)を提案する。
- 参考スコア(独自算出の注目度): 32.97618081988295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To evaluate prospective contextual bandit policies when experimentation is
not possible, practitioners often rely on off-policy evaluation, using data
collected under a behavioral policy. While off-policy evaluation studies
typically focus on the expected return, practitioners often care about other
functionals of the reward distribution (e.g., to express aversion to risk). In
this paper, we first introduce the class of Lipschitz risk functionals, which
subsumes many common functionals, including variance, mean-variance, and
conditional value-at-risk (CVaR). For Lipschitz risk functionals, the error in
off-policy risk estimation is bounded by the error in off-policy estimation of
the cumulative distribution function (CDF) of rewards. Second, we propose
Off-Policy Risk Assessment (OPRA), an algorithm that (i) estimates the target
policy's CDF of rewards; and (ii) generates a plug-in estimate of the risk.
Given a collection of Lipschitz risk functionals, OPRA provides estimates for
each with corresponding error bounds that hold simultaneously. We analyze both
importance sampling and variance-reduced doubly robust estimators of the CDF.
Our primary theoretical contributions are (i) the first concentration
inequalities for both types of CDF estimators and (ii) guarantees on our
Lipschitz risk functional estimates, which converge at a rate of O(1/\sqrt{n}).
For practitioners, OPRA offers a practical solution for providing
high-confidence assessments of policies using a collection of relevant metrics.
- Abstract(参考訳): 実験が不可能である場合、先見的な文脈的バンディットポリシーを評価するために、実践者は行動ポリシーで収集されたデータを用いて、しばしばオフポリシー評価に依存する。
政治以外の評価研究は一般的に期待されるリターンに焦点をあてるが、実践者は報酬分布の他の機能(例えばリスクへの嫌悪を表すために)に注意することが多い。
本稿では、まず、分散、平均分散、条件付き値-リスク(CVaR)を含む多くの共通関数を仮定するリプシッツリスク汎関数のクラスを紹介する。
リプシッツリスク汎関数では、オフポリシーリスク推定の誤差は、報酬の累積分布関数(cdf)のオフポリシー推定の誤差によって制限される。
次に,<i>Off-Policy Risk Assessment,OPRA</i>,<i>Off-Policy Risk Assessment,<i>Off-Policy Risk Assessment,<i>Off-Policy Risk Assessment,</i>)を提案する。
リプシッツリスク関数の集合が与えられた場合、OPRAは同時に保持する対応するエラー境界を持つ各々の見積もりを提供する。
本研究は,CDFの2倍剛性推定器の重要サンプリングと分散推定の両方を解析する。
我々の理論上の主要な貢献は、(i)両方のタイプのcdf推定器に対する最初の濃度不等式と(ii)我々のリプシッツリスク関数推定(o(1/\sqrt{n})の確率で収束する)に対する保証である。
実践者にとってOPRAは、関連するメトリクスのコレクションを使用してポリシーの高信頼度評価を提供するための実践的なソリューションを提供する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文 参考訳(メタデータ) (2022-09-21T15:40:59Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Supervised Learning with General Risk Functionals [28.918233583859134]
標準一様収束結果は、予想損失の予想損失の一般化ギャップを仮説クラスに束縛する。
我々は、損失分布のCDFを推定するための最初の一様収束結果を確立し、すべてのH"古いリスク関数と全ての仮説の両方に同時に保持する保証を与える。
論文 参考訳(メタデータ) (2022-06-27T22:11:05Z) - Risk averse non-stationary multi-armed bandits [0.0]
本稿では,非定常損失の場合の多武装包帯問題に対処する。
非定常損失の存在下で, この目的関数に対して2つの推定法を提案する。
このような推定は、エプシロングレーディポリシーのような古典的なアーム選択手法に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-28T18:34:54Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。