論文の概要: Surrogate-Based Prevalence Measurement for Large-Scale A/B Testing
- arxiv url: http://arxiv.org/abs/2602.16111v1
- Date: Wed, 18 Feb 2026 00:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.480122
- Title: Surrogate-Based Prevalence Measurement for Large-Scale A/B Testing
- Title(参考訳): 大規模A/B試験におけるSurrogate-based Prevalence Measurement
- Authors: Zehao Xu, Tony Paek, Kevin O'Sullivan, Attila Dobi,
- Abstract要約: 本稿では,Emphsurrogateに基づく有病率測定フレームワークを提案する。
実験単位の評価から高価なラベリングを分離する。
実験単位のラベル付けジョブを必要とせずに、スケーラブルで低遅延の精度測定を可能にする。
- 参考スコア(独自算出の注目度): 0.23332469289621785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online media platforms often need to measure how frequently users are exposed to specific content attributes in order to evaluate trade-offs in A/B experiments. A direct approach is to sample content, label it using a high-quality rubric (e.g., an expert-reviewed LLM prompt), and estimate impression-weighted prevalence. However, repeatedly running such labeling for every experiment arm and segment is too costly and slow to serve as a default measurement at scale. We present a scalable \emph{surrogate-based prevalence measurement} framework that decouples expensive labeling from per-experiment evaluation. The framework calibrates a surrogate signal to reference labels offline and then uses only impression logs to estimate prevalence for arbitrary experiment arms and segments. We instantiate this framework using \emph{score bucketing} as the surrogate: we discretize a model score into buckets, estimate bucket-level prevalences from an offline labeled sample, and combine these calibrated bucket level prevalences with the bucket distribution of impressions in each arm to obtain fast, log-based estimates. Across multiple large-scale A/B tests, we validate that the surrogate estimates closely match the reference estimates for both arm-level prevalence and treatment--control deltas. This enables scalable, low-latency prevalence measurement in experimentation without requiring per-experiment labeling jobs.
- Abstract(参考訳): オンラインメディアプラットフォームは、A/B実験でトレードオフを評価するために、ユーザが特定のコンテンツ属性にどの程度の頻度で露出しているかを測定する必要があることが多い。
直接のアプローチは、コンテンツをサンプリングし、高品質なルーリック(例えば、専門家レビューされたLLMプロンプト)を使用してラベル付けし、印象強調の頻度を見積もることである。
しかし、実験用アームやセグメントごとにこのようなラベルを繰り返し実行するにはコストがかかりすぎるため、スケールでのデフォルト測定に役立てるには時間がかかりすぎる。
本稿では,実験単位の評価から高価なラベル付けを分離したスケーラブルな 'emph{surrogate-based prevalence Measurement} フレームワークを提案する。
このフレームワークは、サロゲート信号をオフラインのレファレンスラベルに校正し、インプレッションログのみを使用して任意の実験アームやセグメントの精度を推定する。
モデルスコアをバケットに識別し、オフラインラベル付きサンプルからバケットレベルの有病率を推定し、これらの校正バケットレベルの有病率と各腕のインプレッションのバケット分布を組み合わせ、高速でログベースの推定値を得る。
複数の大規模A/B試験において、サロゲート推定値が腕レベルの有病率と治療制御デルタの両方の基準推定値と密接に一致していることを検証する。
これにより、実験ごとのラベル付けジョブを必要とせずに、スケーラブルで低遅延の精度の測定が可能になる。
関連論文リスト
- Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data [18.111971239860836]
雑音ラベルの存在下での画像分類のための新しいサンプル選択法を提案する。
私たちのゴールは、正しくラベル付けされているが学習が難しいサンプルと、ラベル付けされていないサンプルを正確に区別することです。
本手法は,既存のサンプル選択手法にシームレスに統合可能なプラグイン・アンド・プレイコンポーネントとして機能する。
論文 参考訳(メタデータ) (2025-04-24T12:07:14Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - On Efficient and Statistical Quality Estimation for Data Annotation [11.216738303463751]
アノテーション付きデータセットは、教師付き機械学習モデルをトレーニング、評価、比較、生産化するための重要な要素である。
品質評価は、専門家が手動でインスタンスを正しくも正しくもラベル付けすることで行われることが多い。
しかし、小さなサンプルサイズに基づく推定は、誤り率の不正確な値につながる可能性がある。
また, 受入サンプリングは, 同じ統計的保証を提供しながら, 必要なサンプルサイズを最大50%削減できることを示した。
論文 参考訳(メタデータ) (2024-05-20T09:57:29Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Semi-supervised Object Detection via Virtual Category Learning [68.26956850996976]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
具体的には、各混乱したサンプルに仮想圏(VC)が割り当てられる。
トレーニングサンプルと仮想カテゴリの間の埋め込み距離を指定することに起因する。
論文 参考訳(メタデータ) (2022-07-07T16:59:53Z) - AggMatch: Aggregating Pseudo Labels for Semi-Supervised Learning [25.27527138880104]
半教師付き学習は、大量のラベルのないデータを活用するための効果的なパラダイムであることが証明されている。
AggMatchは、異なる自信のあるインスタンスを使用して初期擬似ラベルを洗練する。
我々は,AggMatchの標準ベンチマークにおける最新の手法に対する有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-01-25T16:41:54Z) - Label Smoothed Embedding Hypothesis for Out-of-Distribution Detection [72.35532598131176]
我々は,$k$-NN 密度推定値を用いて OOD サンプルを検出する教師なし手法を提案する。
emphLabel Smoothed Embedding hypothesis と呼ばれるラベル平滑化に関する最近の知見を活用する。
提案手法は,多くのOODベースラインを上回り,新しい有限サンプル高確率統計結果を提供することを示す。
論文 参考訳(メタデータ) (2021-02-09T21:04:44Z) - Predicting the Accuracy of a Few-Shot Classifier [3.609538870261841]
まず,一般化性能の変動要因を解析する。
我々は,検討された分類器の一般化能力と実証的に相関する合理的な尺度を提案する。
論文 参考訳(メタデータ) (2020-07-08T16:31:28Z) - MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative
Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。
利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。
本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文 参考訳(メタデータ) (2020-06-11T17:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。