論文の概要: Unifying On- and Off-Policy Variance Reduction Methods
- arxiv url: http://arxiv.org/abs/2603.08370v1
- Date: Mon, 09 Mar 2026 13:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.092147
- Title: Unifying On- and Off-Policy Variance Reduction Methods
- Title(参考訳): オン・アンド・オフ・プライシ・バリアンス・リダクションの統一化
- Authors: Olivier Jeunen,
- Abstract要約: オンラインの標準差分平均推定器は,非政治的逆比重推定器と数学的に同一であることを示す。
この統合を拡張して、広範回帰補正法は2倍ロバスト推定と構造的に等価であることを示す。
- 参考スコア(独自算出の注目度): 8.291484471359633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous and efficient experimentation is key to the practical success of user-facing applications on the web, both through online A/B-tests and off-policy evaluation. Despite their shared objective -- estimating the incremental value of a treatment -- these domains often operate in isolation, utilising distinct terminologies and statistical toolkits. This paper bridges that divide by establishing a formal equivalence between their canonical variance reduction methods. We prove that the standard online Difference-in-Means estimator is mathematically identical to an off-policy Inverse Propensity Scoring estimator equipped with an optimal (variance-minimising) additive control variate. Extending this unification, we demonstrate that widespread regression adjustment methods (such as CUPED, CUPAC, and ML-RATE) are structurally equivalent to Doubly Robust estimation. This unified view extends our understanding of commonly used approaches, and can guide practitioners and researchers working on either class of problems.
- Abstract(参考訳): オンラインA/Bテストと非政治評価の両方を通じて、Web上のユーザ向けアプリケーションの実践的成功の鍵は、継続的かつ効率的な実験である。
彼らの共通の目的(治療の漸進的な価値を見積もる)にもかかわらず、これらのドメインは独立して動作し、異なる用語と統計ツールキットを利用する。
本論文は, 正準分散低減法間の形式的等価性を確立することによって分割する橋梁について述べる。
オンラインの標準差分平均推定器は, 最適(分散最小化)加法制御変数を備えた, オフポリティな逆不等式スコアリング推定器と数学的に同一であることが証明された。
この統合を拡張して、CUPED、CUPAC、ML-RATEなどの広範囲な回帰調整手法が二重ロバスト推定と構造的に等価であることを示す。
この統一された見解は、一般的に使われているアプローチの理解を拡張し、実践者や研究者がどちらの種類の問題に取り組むかをガイドする。
関連論文リスト
- Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。
提案手法の有効性と実用性を理論的に検証した。
論文 参考訳(メタデータ) (2025-06-12T13:11:01Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - A Semiparametric Instrumented Difference-in-Differences Approach to
Policy Learning [2.1989182578668243]
本稿では,最適な治療方針を学習するための汎用機器差分差分法(DiD)アプローチを提案する。
具体的には、並列傾向仮定が成立しない場合、二進楽器変数(IV)を用いて識別結果を確立する。
また、ウォルド推定器、新しい逆確率推定器、半効率的で乗算的な頑健な推定器のクラスを構築する。
論文 参考訳(メタデータ) (2023-10-14T09:38:32Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。