論文の概要: Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model
- arxiv url: http://arxiv.org/abs/2210.09512v1
- Date: Sat, 15 Oct 2022 17:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 16:18:30.829488
- Title: Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model
- Title(参考訳): アイテムポジションモデルと位置ベースモデルの補間による学習者ランクのオフ政治評価
- Authors: Alexander Buchholz, Ben London, Giuseppe di Benedetto, Thorsten
Joachims
- Abstract要約: 産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
- 参考スコア(独自算出の注目度): 83.83064559894989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A critical need for industrial recommender systems is the ability to evaluate
recommendation policies offline, before deploying them to production.
Unfortunately, widely used off-policy evaluation methods either make strong
assumptions about how users behave that can lead to excessive bias, or they
make fewer assumptions and suffer from large variance. We tackle this problem
by developing a new estimator that mitigates the problems of the two most
popular off-policy estimators for rankings, namely the position-based model and
the item-position model. In particular, the new estimator, called INTERPOL,
addresses the bias of a potentially misspecified position-based model, while
providing an adaptable bias-variance trade-off compared to the item-position
model. We provide theoretical arguments as well as empirical results that
highlight the performance of our novel estimation approach.
- Abstract(参考訳): 産業推奨システムにとって重要なニーズは、製品にデプロイする前に、推奨ポリシーをオフラインで評価する能力である。
残念なことに、広く使用されているオフポリシー評価手法は、過度のバイアスにつながるユーザの振る舞いについて強い仮定をするか、仮定を少なくし、大きなばらつきに苦しむかのどちらかである。
そこで本稿では、位置ベースモデルとアイテムポジションモデルという、ランク付けのための最もポピュラーな2つのオフポリチック推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、アイテムポジションモデルと比較して適応可能なバイアス分散トレードオフを提供しながら、潜在的に不特定な位置ベースモデルのバイアスに対処する。
提案手法は,理論的な議論と,新しい推定手法の性能を強調する経験的結果を提供する。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Counterfactual-Augmented Importance Sampling for Semi-Offline Policy
Evaluation [13.325600043256552]
そこで本研究では,ヒトが観測不能な反事実軌道のアノテーションを提供する半オフライン評価フレームワークを提案する。
提案手法は,アノテーション・ソリケーションの原則に基づく設計と組み合わせることで,高次の領域における強化学習の活用を可能にする。
論文 参考訳(メタデータ) (2023-10-26T04:41:19Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Guide the Learner: Controlling Product of Experts Debiasing Method Based
on Token Attribution Similarities [17.082695183953486]
一般的な回避策は、二次バイアスモデルに基づいてトレーニング例を再重み付けすることで、堅牢なモデルをトレーニングすることである。
ここでは、バイアスドモデルが機能をショートカットする、という前提がある。
本稿では,主要モデルと偏りのあるモデル属性スコアの類似性を,プロダクト・オブ・エキスパートズ・ロス関数に組み込んだ微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-02-06T15:21:41Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Doubly Robust Off-Policy Evaluation for Ranking Policies under the
Cascade Behavior Model [11.101369123145588]
ランキングポリシのオフライン評価は、ログデータのみを使用して、新たなランキングポリシのパフォーマンス推定を可能にする。
従来の研究では、アイテム空間をトラクタブルにするために、ユーザ行動に関するいくつかの仮定が紹介されていた。
本稿では,ランキングの上位位置から次々にアイテムと対話するカスケード2倍ロバスト推定器を提案する。
論文 参考訳(メタデータ) (2022-02-03T12:42:33Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。