論文の概要: Minimax Off-Policy Evaluation for Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2101.07781v1
- Date: Tue, 19 Jan 2021 18:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:26:11.416150
- Title: Minimax Off-Policy Evaluation for Multi-Armed Bandits
- Title(参考訳): マルチアームバンディットのミニマックスオフポリシー評価
- Authors: Cong Ma, Banghua Zhu, Jiantao Jiao, Martin J. Wainwright
- Abstract要約: 有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
- 参考スコア(独自算出の注目度): 58.7013651350436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of off-policy evaluation in the multi-armed bandit model
with bounded rewards, and develop minimax rate-optimal procedures under three
settings. First, when the behavior policy is known, we show that the Switch
estimator, a method that alternates between the plug-in and importance sampling
estimators, is minimax rate-optimal for all sample sizes. Second, when the
behavior policy is unknown, we analyze performance in terms of the competitive
ratio, thereby revealing a fundamental gap between the settings of known and
unknown behavior policies. When the behavior policy is unknown, any estimator
must have mean-squared error larger -- relative to the oracle estimator
equipped with the knowledge of the behavior policy -- by a multiplicative
factor proportional to the support size of the target policy. Moreover, we
demonstrate that the plug-in approach achieves this worst-case competitive
ratio up to a logarithmic factor. Third, we initiate the study of the partial
knowledge setting in which it is assumed that the minimum probability taken by
the behavior policy is known. We show that the plug-in estimator is optimal for
relatively large values of the minimum probability, but is sub-optimal when the
minimum probability is low. In order to remedy this gap, we propose a new
estimator based on approximation by Chebyshev polynomials that provably
achieves the optimal estimation error. Numerical experiments on both simulated
and real data corroborate our theoretical findings.
- Abstract(参考訳): 境界付報酬を伴うマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討し,3つの条件下でのミニマックスレート最適化手法の開発を行った。
まず、動作ポリシーが分かっている場合、プラグインと重要サンプリング推定器を交互に切り替える方法であるswitch estimatorが、すべてのサンプルサイズに対して最小のレート最適化であることを示す。
第二に、行動方針が不明な場合、競争率の観点から性能を解析し、既知の行動方針と未知の行動方針との基本的なギャップを明らかにする。
行動方針が不明な場合、どの推定器も平均二乗誤差(行動方針の知識を備えたオラクル推定器と比較して)を目標政策の支持サイズに比例する乗法的因子で表さなければならない。
さらに,プラグイン手法が対数係数までの最悪の競合比を達成することを示す。
第3に、行動方針によって取られる最小確率が知られていると仮定した部分的知識設定の研究を開始する。
最小確率の比較的大きな値に対して,プラグイン推定器は最適であるが,最小確率が低い場合には最適でないことを示す。
このギャップを解消するために, 最適な推定誤差を実現するため, チェビシェフ多項式による近似に基づく新しい推定器を提案する。
シミュレーションデータと実データの両方に関する数値実験は、我々の理論的知見を裏付けるものである。
関連論文リスト
- Efficient and Sharp Off-Policy Learning under Unobserved Confounding [25.068617118126824]
本研究では,未観測のコンファウンディングを伴うシナリオにおいて,個人化された非政治学習のための新しい手法を開発する。
本手法は,未観測のコンバウンディングが問題となるような意思決定に極めて有用である。
論文 参考訳(メタデータ) (2025-02-18T16:42:24Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy [11.16777821381608]
本稿では,マルコフ決定プロセスのための新しい二重ロバスト(DR)オフ・ポリティクス (DRUnknown) を導入し,ログポリシと値関数の双方が未知な状況を想定した。
提案した推定器は,まずログポリシを推定し,その評価器の分散を最小化し,ログポリシの効果を考慮し,値関数モデルを推定する。
論文 参考訳(メタデータ) (2024-04-02T10:42:44Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Error Reduction from Stacked Regressions [12.657895453939298]
積み重ね回帰は、予測精度を高めるために異なる回帰推定器の線形結合を形成するアンサンブル手法である。
本稿では,非負性制約を受ける経験的リスクの正規化バージョンを最小化することにより,これらの重みを類似的に学習する。
適応的縮小効果により、結果として生じる累積推定量は、最も優れた単一推定値よりも人口リスクが厳しく小さい。
論文 参考訳(メタデータ) (2023-09-18T15:42:12Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。