論文の概要: Optimal Off-Policy Evaluation from Multiple Logging Policies
- arxiv url: http://arxiv.org/abs/2010.11002v1
- Date: Wed, 21 Oct 2020 13:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:34:43.412611
- Title: Optimal Off-Policy Evaluation from Multiple Logging Policies
- Title(参考訳): 複数のログポリシーによる最適オフポリシー評価
- Authors: Nathan Kallus, Yuta Saito, Masatoshi Uehara
- Abstract要約: 我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
- 参考スコア(独自算出の注目度): 77.62012545592233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study off-policy evaluation (OPE) from multiple logging policies, each
generating a dataset of fixed size, i.e., stratified sampling. Previous work
noted that in this setting the ordering of the variances of different
importance sampling estimators is instance-dependent, which brings up a dilemma
as to which importance sampling weights to use. In this paper, we resolve this
dilemma by finding the OPE estimator for multiple loggers with minimum variance
for any instance, i.e., the efficient one. In particular, we establish the
efficiency bound under stratified sampling and propose an estimator achieving
this bound when given consistent $q$-estimates. To guard against
misspecification of $q$-functions, we also provide a way to choose the control
variate in a hypothesis class to minimize variance. Extensive experiments
demonstrate the benefits of our methods' efficiently leveraging of the
stratified sampling of off-policy data from multiple loggers.
- Abstract(参考訳): 複数のロギングポリシからオフポリシー評価(OPE)を行い、それぞれが一定のサイズ、すなわち階層化サンプリングのデータセットを生成する。
従来の研究では、異なる重要度サンプリング推定器のばらつきの順序付けはインスタンス依存であり、どの重要度サンプリング重量を使用するかというジレンマを生じさせた。
本稿では,このジレンマを,任意の場合,すなわち効率の低い複数のロガーに対するOPE推定器によって解決する。
特に、階層化サンプリング下でのバウンドの効率を確立し、一貫した$q$-estimatesが与えられたときにこのバウンドを達成する推定子を提案する。
q$-関数の誤特定から守るため、分散を最小限に抑えるために仮説クラスで制御変数を選択する方法も提供します。
大規模実験により,複数のロガーからのオフポリシーデータの階層化サンプリングを効率的に活用できることが実証された。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Bayesian Hierarchical Models for Counterfactual Estimation [12.159830463756341]
本稿では,多種多様なカウンターファクトの集合を推定する確率的パラダイムを提案する。
摂動を事前分布関数によるランダム変数として扱う。
収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
論文 参考訳(メタデータ) (2023-01-21T00:21:11Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。