論文の概要: Variance Reduction for Heavy-Tailed Monetization Metrics in Ranking Experiments via Post-Stratification
- arxiv url: http://arxiv.org/abs/2606.04110v1
- Date: Tue, 02 Jun 2026 18:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.315643
- Title: Variance Reduction for Heavy-Tailed Monetization Metrics in Ranking Experiments via Post-Stratification
- Title(参考訳): ポストストレティフィケーションによるランキング実験における重機付き通貨化指標の変動低減
- Authors: Neeti Pokharna, Olivier Jeunen, Yatharth Saraf, Aleksei Ustimenko,
- Abstract要約: 本稿では,CUPEDとポストストラテフィケーションを組み合わせたオンライン実験における分散低減のための実践的枠組みを提案する。
ランキング駆動の収益化実験にまたがってShareChatにデプロイされたこの手法は、分散を著しく低減し、意思決定の安定性を向上させる。
- 参考スコア(独自算出の注目度): 16.57321202143624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online evaluation of ranking and retrieval systems often relies on downstream monetization metrics such as app revenue or creator earnings. These metrics are typically heavy-tailed, with a small fraction of users dominating both mean and variance, leading to low statistical power and unreliable conclusions in A/B experiments -- especially under limited traffic. We present a practical framework for variance reduction in online experiments by combining post-stratification with CUPED. Our approach leverages pre-experiment covariates to improve the sensitivity of monetization experiments without requiring additional traffic. Deployed at ShareChat across ranking-driven monetization experiments, the method substantially reduces variance and improves decision stability, achieving equivalent statistical confidence with ~45\% less traffic than standard metrics. We further discuss practical design choices, guardrails, and limitations, providing guidance on when post-stratification is appropriate for real-world information retrieval and Recommendation systems.
- Abstract(参考訳): ランキングと検索システムのオンライン評価は、アプリ収益やクリエーター収益のような下流の収益化指標に依存することが多い。
これらの指標は典型的には重く、平均と分散の両方を支配しているのは少数のユーザで、A/B実験では統計能力が低く、信頼性の低い結果につながる。
本稿では,CUPEDとポストストラテフィケーションを組み合わせたオンライン実験における分散低減のための実践的枠組みを提案する。
提案手法は,事前実験の共変量を利用して,追加のトラフィックを必要とせず,収益化実験の感度を向上させる。
ランキング駆動の収益化実験にまたがってShareChatにデプロイされたこの手法は、分散を著しく低減し、決定の安定性を改善し、標準のメトリクスよりもトラフィックが約45倍の統計的信頼性を達成します。
さらに,実世界の情報検索・推薦システムにポストストラトフィケーションがいつ適切かを示すための,実用的な設計選択,ガードレール,制限について論じる。
関連論文リスト
- Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。
FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。
FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文 参考訳(メタデータ) (2026-02-28T05:41:57Z) - Profit over Proxies: A Scalable Bayesian Decision Framework for Optimizing Multi-Variant Online Experiments [0.0352925259310339]
オンライン制御実験(A/Bテスト)は、デジタル経済におけるデータ駆動型意思決定の基礎である。
p-value"は偽陽性率を膨らませ、変換レートのようなプロキシメトリクスへの過度な依存は、必然的にビジネスの黒字化を損なう決定につながる可能性がある。
本稿では,多変量(A/B/n)実験における利益最適化を目的とした包括的かつスケーラブルなベイズ決定フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-16T02:24:20Z) - Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。
提案手法の有効性と実用性を理論的に検証した。
論文 参考訳(メタデータ) (2025-06-12T13:11:01Z) - Benchmarking Transferability: A Framework for Fair and Robust Evaluation [6.9052557953336295]
転送可能性スコアは、あるドメインでトレーニングされたモデルがターゲットドメインにどのように一般化するかを定量化することを目的としています。
転送可能性を測定するための多くの方法が提案されているが、その信頼性と実用性は決定的ではない。
様々な設定で転送可能性スコアを体系的に評価するための総合的なベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T11:01:43Z) - STATE: A Robust ATE Estimator of Heavy-Tailed Metrics for Variance Reduction in Online Controlled Experiments [22.32661807469984]
我々は、学生のt分布と機械学習ツールを統合して、ヘビーテールのメトリクスに適合する新しいフレームワークを開発する。
ログ類似度関数を最適化するために変分EM法を採用することにより、アウトリアの負の影響を大幅に排除するロバストな解を推測できる。
Meituan実験プラットフォーム上での合成データと長期実験結果のシミュレーションにより,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-07-23T09:35:59Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-01-08T18:01:09Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。