論文の概要: Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits
- arxiv url: http://arxiv.org/abs/2202.01721v1
- Date: Thu, 3 Feb 2022 17:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 16:28:07.023259
- Title: Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits
- Title(参考訳): コンテキスト帯域の対実評価のための変数最適拡張ログ
- Authors: Aaron David Tucker and Thorsten Joachims
- Abstract要約: オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
- 参考スコア(独自算出の注目度): 25.153656462604268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods for offline A/B testing and counterfactual learning are seeing rapid
adoption in search and recommender systems, since they allow efficient reuse of
existing log data. However, there are fundamental limits to using existing log
data alone, since the counterfactual estimators that are commonly used in these
methods can have large bias and large variance when the logging policy is very
different from the target policy being evaluated. To overcome this limitation,
we explore the question of how to design data-gathering policies that most
effectively augment an existing dataset of bandit feedback with additional
observations for both learning and evaluation. To this effect, this paper
introduces Minimum Variance Augmentation Logging (MVAL), a method for
constructing logging policies that minimize the variance of the downstream
evaluation or learning problem. We explore multiple approaches to computing
MVAL policies efficiently, and find that they can be substantially more
effective in decreasing the variance of an estimator than na\"ive approaches.
- Abstract(参考訳): オフラインa/bテストと非事実学習の方法は,既存のログデータの効率的な再利用を可能にするため,検索システムやレコメンダシステムで急速に採用されている。
しかしながら、これらの手法で一般的に使用される反ファクト的推定器は、ログポリシーが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性があるため、既存のログデータの使用には根本的な制限がある。
この制限を克服するために、我々は既存の帯域フィードバックのデータセットを効果的に強化し、学習と評価の両方にさらなる観察を行うデータ収集ポリシーを設計する方法について検討する。
そこで本研究では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するためのMVAL(Minimum Variance Augmentation Logging)を提案する。
我々は, MVAL ポリシーを効率的に計算するための複数のアプローチを探索し, 推定器の分散を na\ なアプローチよりも大幅に低減できることを示した。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Bootstrap Advantage Estimation for Policy Optimization in Reinforcement
Learning [16.999444076456268]
本稿では,政策最適化のためのデータ拡張に基づく利点推定手法を提案する。
本手法では,ブートストラップの利点推定の計算にデータ拡張を用いる。
提案手法は,一般化された優位性推定よりも,ポリシと値損失を低減させる。
論文 参考訳(メタデータ) (2022-10-13T19:30:43Z) - Semi-supervised Batch Learning From Logged Data [24.826544828460158]
我々は,リスク最小化フレームワークを構築し,妥当性スコアへのアクセスも想定している。
本稿では,一部のサンプルにフィードバックが欠落している問題に対する学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T08:58:28Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Taking the Counterfactual Online: Efficient and Unbiased Online
Evaluation for Ranking [74.46448041224247]
データロギングのポリシーを最適化する新しいロギング・ポリシ最適化アルゴリズム(LogOpt)を導入する。
LogOptは、ログポリシーに無関係な反ファクト的なアプローチをオンラインアプローチに変換し、アルゴリズムが表示すべきランキングを決定する。
オンライン評価手法として、LogOptは既存のインターリービング方法とは異なり、位置と項目選択バイアスに偏りがないことが証明されている。
論文 参考訳(メタデータ) (2020-07-24T18:05:58Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。