論文の概要: Additive Control Variates Dominate Self-Normalisation in Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2602.14914v1
- Date: Mon, 16 Feb 2026 16:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.549451
- Title: Additive Control Variates Dominate Self-Normalisation in Off-Policy Evaluation
- Title(参考訳): 適応制御はオフポリティ評価において支配的な自己正規化を変動させる
- Authors: Olivier Jeunen, Shashank Gupta,
- Abstract要約: SNIPSは、特定の、しかし一般的にはサブ最適の、付加的なベースラインを使用することと等価であることを示す。
本結果は,自己正規化から,ランク付けとレコメンデーションの両面での最適なベースライン修正への移行を正当化するものである。
- 参考スコア(独自算出の注目度): 8.907440501295346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) is essential for assessing ranking and recommendation systems without costly online interventions. Self-Normalised Inverse Propensity Scoring (SNIPS) is a standard tool for variance reduction in OPE, leveraging a multiplicative control variate. Recent advances in off-policy learning suggest that additive control variates (baseline corrections) may offer superior performance, yet theoretical guarantees for evaluation are lacking. This paper provides a definitive answer: we prove that $β^\star$-IPS, an estimator with an optimal additive baseline, asymptotically dominates SNIPS in Mean Squared Error. By analytically decomposing the variance gap, we show that SNIPS is asymptotically equivalent to using a specific -- but generally sub-optimal -- additive baseline. Our results theoretically justify shifting from self-normalisation to optimal baseline corrections for both ranking and recommendation.
- Abstract(参考訳): オフ・ポリティィ・アセスメント(OPE)は、コストのかかるオンライン介入なしにランキングとレコメンデーションシステムを評価するのに不可欠である。
SNIPS(Self-Normalized Inverse Propensity Scoring)は,OPEの分散低減のための標準ツールである。
政治外学習の最近の進歩は、付加的な制御変数(ベースライン補正)は優れた性能をもたらすが、評価の理論的保証は欠如していることを示唆している。
本稿では, 最適加法ベースラインを持つ推定器である$β^\star$-IPSが, Mean Squared ErrorにおいてSNIPSを漸近的に支配していることを証明する。
分散ギャップを解析的に分解することにより、SNIPS は特定の-しかし一般的には-準最適--加法的基底線の使用と漸近的に等価であることを示す。
理論的には, 自己正規化から最適基準修正へのシフトを, ランク付けとレコメンデーションの両方において正当化する。
関連論文リスト
- Mitigating Mismatch within Reference-based Preference Optimization [55.07698254211876]
直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっている。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
DPOを変更して、$_-_mathrmref$を$_-max0,_mathrmref$に置き換えることで、悲観的な場合、参照を中立的に扱うようにします。
論文 参考訳(メタデータ) (2026-02-12T12:55:51Z) - Counterfactual Risk Minimization with IPS-Weighted BPR and Self-Normalized Evaluation in Recommender Systems [3.5507492850515323]
逆相対性スコア(IPS)は、このバイアスを補正するが、しばしば高いばらつきと不安定さに悩まされる。
IPS重み付きトレーニングとIPS重み付きベイズパーソナライズされたランク付け目標を統合した,シンプルで効果的なパイプラインを提案する。
合成およびMovieLens 100Kデータによる実験により、我々のアプローチは偏りのない露光下でより一般化されることが示された。
論文 参考訳(メタデータ) (2025-08-30T03:14:56Z) - Off-Policy Evaluation of Ranking Policies via Embedding-Space User Behavior Modeling [0.0]
大規模なランク付け行動空間を有するランキング設定における非政治的評価は、新しいレコメンデーションポリシーを評価する上で不可欠である。
我々は2つの新しい仮定を導入する: ランキングに直接的な影響はなく、ユーザー行動モデルがランキングの埋め込み空間に直接的な影響を与えることはない。
次に,統計的に望ましい特性を持つ一般化された辺化逆確率スコア推定器を提案する。
論文 参考訳(メタデータ) (2025-05-31T07:58:53Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation of Ranking Policies under Diverse User Behavior [25.226825574282937]
Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T22:31:15Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。