論文の概要: Distributional Off-Policy Evaluation for Slate Recommendations
- arxiv url: http://arxiv.org/abs/2308.14165v1
- Date: Sun, 27 Aug 2023 17:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 16:23:14.123589
- Title: Distributional Off-Policy Evaluation for Slate Recommendations
- Title(参考訳): スレートレコメンデーションのための分布的オフポリシー評価
- Authors: Shreyas Chaudhari, David Arbour, Georgios Theocharous, Nikos Vlassis
- Abstract要約: 本研究では,スレートの非政治的性能分布を推定する手法を提案する。
本研究では,実世界のデータから構築したスレートレコメンデーションシミュレータ上で,人工データおよび人工データに対する本手法の有効性を実証的に検証する。
- 参考スコア(独自算出の注目度): 19.22972996548473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommendation strategies are typically evaluated by using previously logged
data, employing off-policy evaluation methods to estimate their expected
performance. However, for strategies that present users with slates of multiple
items, the resulting combinatorial action space renders many of these methods
impractical. Prior work has developed estimators that leverage the structure in
slates to estimate the expected off-policy performance, but the estimation of
the entire performance distribution remains elusive. Estimating the complete
distribution allows for a more comprehensive evaluation of recommendation
strategies, particularly along the axes of risk and fairness that employ
metrics computable from the distribution. In this paper, we propose an
estimator for the complete off-policy performance distribution for slates and
establish conditions under which the estimator is unbiased and consistent. This
builds upon prior work on off-policy evaluation for slates and off-policy
distribution estimation in reinforcement learning. We validate the efficacy of
our method empirically on synthetic data as well as on a slate recommendation
simulator constructed from real-world data (MovieLens-20M). Our results show a
significant reduction in estimation variance and improved sample efficiency
over prior work across a range of slate structures.
- Abstract(参考訳): 勧告戦略は、通常、事前に記録されたデータを用いて評価され、期待されるパフォーマンスを見積もるために、政外評価手法を用いる。
しかし、複数の項目のスレートをユーザに提供する戦略では、結果として生じる組合せアクション空間は、これらの手法の多くを実用的でないものにしている。
以前の研究では、スレートの構造を利用して期待外のパフォーマンスを推定する推定器を開発したが、全体のパフォーマンス分布の推定はいまだに解明されていない。
完全な分布の推定は、特に分布から計算可能なメトリクスを使用するリスクと公平の軸に沿って、推奨戦略をより包括的に評価することができる。
本稿では,スレートの完全なオフポリシー性能分布に対する推定器を提案し,推定器が偏りなく一貫性のない条件を定式化する。
これは強化学習におけるスレートのオフポリシー評価とオフポリシー分布推定の先行研究に基づいている。
実世界のデータから構築したスレートレコメンデーションシミュレータ(MovieLens-20M)において,本手法の有効性を実証的に検証した。
その結果,スレート構造にまたがる先行作業よりも,推定ばらつきが著しく低減し,試料効率が向上した。
関連論文リスト
- Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。