論文の概要: Debiased Off-Policy Evaluation for Recommendation Systems
- arxiv url: http://arxiv.org/abs/2002.08536v3
- Date: Mon, 2 Aug 2021 21:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:32:31.775772
- Title: Debiased Off-Policy Evaluation for Recommendation Systems
- Title(参考訳): 勧告システムにおけるデバイアスド・オフ・ポリティクスの評価
- Authors: Yusuke Narita, Shota Yasui, Kohei Yata
- Abstract要約: A/Bテストは信頼できるが、時間と費用がかかり、失敗のリスクが伴う。
提案手法は,履歴データに対するアルゴリズムの性能を推定する手法である。
提案手法は,最先端手法よりも平均2乗誤差が小さい。
- 参考スコア(独自算出の注目度): 8.63711086812655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient methods to evaluate new algorithms are critical for improving
interactive bandit and reinforcement learning systems such as recommendation
systems. A/B tests are reliable, but are time- and money-consuming, and entail
a risk of failure. In this paper, we develop an alternative method, which
predicts the performance of algorithms given historical data that may have been
generated by a different algorithm. Our estimator has the property that its
prediction converges in probability to the true performance of a counterfactual
algorithm at a rate of $\sqrt{N}$, as the sample size $N$ increases. We also
show a correct way to estimate the variance of our prediction, thus allowing
the analyst to quantify the uncertainty in the prediction. These properties
hold even when the analyst does not know which among a large number of
potentially important state variables are actually important. We validate our
method by a simulation experiment about reinforcement learning. We finally
apply it to improve advertisement design by a major advertisement company. We
find that our method produces smaller mean squared errors than state-of-the-art
methods.
- Abstract(参考訳): 新しいアルゴリズムを評価する効率的な方法は、リコメンデーションシステムのようなインタラクティブなバンディットと強化学習システムを改善するために重要である。
A/Bテストは信頼できるが、時間と費用がかかり、失敗のリスクが伴う。
本稿では,異なるアルゴリズムによって生成された可能性のある履歴データに対して,アルゴリズムの性能を推定する手法を提案する。
我々の推定器は、サンプルサイズの$N$が増加するにつれて、その予測が正実数アルゴリズムの真のパフォーマンスに$\sqrt{N}$で収束する性質を持つ。
また、予測のばらつきを推定する正しい方法を示し、分析者が予測の不確かさを定量化できるようにする。
これらの特性は、アナリストが、潜在的に重要な状態変数のどれが実際に重要なのかを知らない場合にも保持される。
本手法は強化学習に関するシミュレーション実験により検証した。
大手広告会社による広告デザインの改善に、ようやく適用しました。
その結果,本手法は最先端手法よりも平均二乗誤差が小さいことがわかった。
関連論文リスト
- Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Distribution-free risk assessment of regression-based machine learning
algorithms [6.507711025292814]
我々は回帰アルゴリズムとモデル予測の周囲に定義された区間内に存在する真のラベルの確率を計算するリスク評価タスクに焦点をあてる。
そこで,本研究では,正のラベルを所定の確率で含むことが保証される予測区間を提供する共形予測手法を用いてリスク評価問題を解決する。
論文 参考訳(メタデータ) (2023-10-05T13:57:24Z) - Uncertainty Estimation based on Geometric Separation [13.588210692213568]
機械学習では、特定の入力が正しい確率を正確に予測することがリスク管理に不可欠である。
機械学習モデルにおける不確実性推定を改善するための新しい幾何学的アプローチを提案する。
論文 参考訳(メタデータ) (2023-01-11T13:19:24Z) - A Geometric Method for Improved Uncertainty Estimation in Real-time [13.588210692213568]
ポストホックモデルキャリブレーションは、再トレーニングを必要とせずにモデルの不確実性推定を改善することができる。
我々の研究は不確実性推定のための幾何学的アプローチを推し進めている。
提案手法は,最近提案された手法よりも不確実性評価が優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:18:05Z) - Risk Preferences of Learning Algorithms [0.0]
広く使われている学習アルゴリズムである$varepsilon$-Greedyは、突発的なリスク回避を示す。
このバイアスを修正する2つの方法について議論する。
論文 参考訳(メタデータ) (2022-05-10T01:30:24Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。
本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:02:31Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Scalable Approximate Inference and Some Applications [2.6541211006790983]
本稿では,近似推論のための新しいフレームワークを提案する。
提案する4つのアルゴリズムは,Steinの手法の最近の計算進歩に動機付けられている。
シミュレーションおよび実データを用いた結果から,アルゴリズムの統計的効率と適用性を示す。
論文 参考訳(メタデータ) (2020-03-07T04:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。