論文の概要: Uncertainty-Aware Instance Reweighting for Off-Policy Learning
- arxiv url: http://arxiv.org/abs/2303.06389v2
- Date: Wed, 27 Sep 2023 08:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 19:40:21.037212
- Title: Uncertainty-Aware Instance Reweighting for Off-Policy Learning
- Title(参考訳): オフポリティ学習のための不確実性認識型インスタンス再重み付け
- Authors: Xiaoying Zhang, Junpu Chen, Hongning Wang, Hong Xie, Yang Liu, John
C.S. Lui, Hang Li
- Abstract要約: 本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
- 参考スコア(独自算出の注目度): 63.31923483172859
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Off-policy learning, referring to the procedure of policy optimization with
access only to logged feedback data, has shown importance in various real-world
applications, such as search engines, recommender systems, and etc. While the
ground-truth logging policy, which generates the logged data, is usually
unknown, previous work simply takes its estimated value in off-policy learning,
ignoring both high bias and high variance resulted from such an estimator,
especially on samples with small and inaccurately estimated logging
probabilities. In this work, we explicitly model the uncertainty in the
estimated logging policy and propose a Uncertainty-aware Inverse Propensity
Score estimator (UIPS) for improved off-policy learning, with a theoretical
convergence guarantee. Experiment results on synthetic and three real-world
recommendation datasets demonstrate the advantageous sample efficiency of the
proposed UIPS estimator against an extensive list of state-of-the-art
baselines.
- Abstract(参考訳): オフライン学習は、ログ化されたフィードバックデータにのみアクセス可能なポリシー最適化の手順を参照し、検索エンジンやレコメンダシステムなど、さまざまな現実世界のアプリケーションにおいて重要であることを示す。
ログデータを生成する接地検層法は通常不明であるが、従来の研究は単に非政治学習において推定値を取るだけで、特に小さく不正確な推定検層確率を持つ試料において、そのような推定値から生じる高いバイアスと高いばらつきの両方を無視している。
そこで本研究では,推定ロギング政策の不確実性を明示的にモデル化し,不確実性を考慮した逆傾向スコア推定器(uips)を提案する。
人工的および実世界の3つの推奨データセットの実験結果から,提案したUIPS推定器の有効サンプル効率を,最先端のベースラインの広範なリストと比較した。
関連論文リスト
- Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Positivity-free Policy Learning with Observational Data [8.293758599118618]
本研究では,新しい肯定的(確率的)政策学習フレームワークを提案する。
本研究では,治療に一定値を割り当てる代わりに,適応度スコア値を調整するための漸進的適合度スコアポリシーを提案する。
本稿では,政策学習に関連する理論的保証を徹底的に検討し,提案フレームワークの有限サンプル性能を検証した。
論文 参考訳(メタデータ) (2023-10-10T19:47:27Z) - Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments [31.492146288630515]
回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
論文 参考訳(メタデータ) (2023-02-23T01:17:21Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。