Fugu-MT 論文翻訳(概要): Ranking by Lifts: A Cost-Benefit Approach to Large-Scale A/B Tests

論文の概要: Ranking by Lifts: A Cost-Benefit Approach to Large-Scale A/B Tests

arxiv url: http://arxiv.org/abs/2407.01036v2
Date: Mon, 02 Dec 2024 15:31:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.661265
Title: Ranking by Lifts: A Cost-Benefit Approach to Large-Scale A/B Tests
Title（参考訳）: Liftsによるランク付け: 大規模A/Bテストに対するコストベネフィットアプローチ
Authors: Pallavi Basu, Ron Berman,
Abstract要約: 本研究は、偽発見率(FDR)制御を受ける利益を最大化する決定論的枠組みを開発する。我々はこの問題に対する経験的ベイズ解をgreedy knapsackアプローチで構築する。我々のオラクル決定ルールは大規模テストに有効で最適です。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A/B testers that conduct large-scale tests often prioritize lifts as the main outcome metric and want to be able to control costs resulting from false rejections of the null. This work develops a decision-theoretic framework for maximizing profits subject to false discovery rate (FDR) control. We build an empirical Bayes solution for the problem via a greedy knapsack approach. We derive an oracle rule based on ranking the ratio of expected lifts and the cost of wrong rejections using the local false discovery rate (lfdr) statistic. Our oracle decision rule is valid and optimal for large-scale tests. Further, we establish asymptotic validity for the data-driven procedure and demonstrate finite-sample validity in experimental studies. We also demonstrate the merit of the proposed method over other FDR control methods. Finally, we discuss an application to data collected by experiments on the Optimizely platform.
Abstract（参考訳）: 大規模なテストを行うA/Bテスタは、リフティングを主要な結果基準として優先し、nullの誤った拒絶によるコストをコントロールしたいと思っています。本研究は、偽発見率(FDR)制御を受ける利益を最大化する決定論的枠組みを開発する。我々はこの問題に対する経験的ベイズ解をgreedy knapsackアプローチで構築する。提案手法は, 予測昇降率のランク付けと, 誤検出率(lfdr)統計を用いた誤った拒絶のコストに基づいて, オラクルルールを導出する。我々のオラクル決定ルールは大規模テストに有効で最適です。さらに,データ駆動方式の漸近的妥当性を確立し,実験において有限サンプルの有効性を示す。また,提案手法が他のFDR制御法よりも優れていることを示す。最後に、Optimizelyプラットフォーム上で実験によって収集されたデータに対するアプリケーションについて論じる。

関連論文リスト

Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文参考訳（メタデータ） (2026-03-04T14:48:53Z)
ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文参考訳（メタデータ） (2026-02-27T05:22:01Z)
Enhanced-FQL($λ$), an Efficient and Interpretable RL with novel Fuzzy Eligibility Traces and Segmented Experience Replay [0.0]
Enhanced-FQL($$)は、n-step fuzzy TDやfuzzyA($$)ベースラインと比較して、優れたサンプル効率と分散の低減を実現している。フレームワーク固有の解釈可能性と計算効率と理論的収束保証が組み合わさって、安全クリティカルなアプリケーションに適している。
論文参考訳（メタデータ） (2026-01-07T20:59:18Z)
Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in Ad Auctions [16.315158617837646]
この研究は、決定論的オークション環境における信頼性の高いオフ・ポリティ・アセスメント(OPE)のための、初めて実用的で検証されたフレームワークに貢献する。提案手法は,提案手法を用いて提案した提案手法を,提案手法を用いて提案する提案手法である。 AuctionNetシミュレーションベンチマークと大規模産業プラットフォームによる2週間のオンラインA/Bテストに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-12-03T01:37:42Z)
Profit over Proxies: A Scalable Bayesian Decision Framework for Optimizing Multi-Variant Online Experiments [0.0352925259310339]
オンライン制御実験(A/Bテスト)は、デジタル経済におけるデータ駆動型意思決定の基礎である。 p-value"は偽陽性率を膨らませ、変換レートのようなプロキシメトリクスへの過度な依存は、必然的にビジネスの黒字化を損なう決定につながる可能性がある。本稿では,多変量(A/B/n)実験における利益最適化を目的とした包括的かつスケーラブルなベイズ決定フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-16T02:24:20Z)
Reward-Shifted Speculative Sampling Is An Efficient Test-Time Weak-to-Strong Aligner [24.152878302325508]
提案手法では,対象モデルが変わらず,ヒトの嗜好に沿うような,報酬シフト型投機的サンプリング(SSS)アルゴリズムを導入する。本アルゴリズムは, 試験時間低強度アライメント実験において, 推定コストを著しく低減し, 優れた金報酬スコアを得る。
論文参考訳（メタデータ） (2025-08-20T20:10:56Z)
COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
$t$-Testing the Waters: Empirically Validating Assumptions for Reliable A/B-Testing [3.988614978933934]
A/BテストはWeb上での実験的な設計の基礎であり、広範囲のアプリケーションとユースケースがある。本稿では,$t$-testの仮定が満たされ,A/B-testが有効かどうかを検証するための実用的な手法を提案する。これにより、$t$-testの仮定が満たされ、A/B-testが有効かどうかを経験的に評価する、効率的で効果的な方法が提供される。
論文参考訳（メタデータ） (2025-02-07T09:55:24Z)
An Upper Confidence Bound Approach to Estimating the Maximum Mean [0.0]
本研究では, 上限値の最大値の推定について, 上限値 (UCB) を用いて検討した。両推定器の強い一貫性、平均二乗誤差、中央極限定理(CLT)を含む統計的保証を確立する。
論文参考訳（メタデータ） (2024-08-08T02:53:09Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文参考訳（メタデータ） (2024-02-18T10:13:01Z)
Boosting Fair Classifier Generalization through Adaptive Priority Reweighing [59.801444556074394]
より優れた一般化性を持つ性能向上フェアアルゴリズムが必要である。本稿では,トレーニングデータとテストデータ間の分散シフトがモデル一般化性に与える影響を解消する適応的リライジング手法を提案する。
論文参考訳（メタデータ） (2023-09-15T13:04:55Z)
A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial Networks [3.623570119514559]
そこで我々は,GoF(Goness-of-fit)テストのための半ベイズ非パラメトリック(セミBNP)手順を提案する。提案手法は,最大平均誤差(MMD)測定のための新しいベイズ推定器を提案する。提案手法は, 誤り仮説の誤認率と受理率を低くすることで, 頻繁なMDD法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-05T10:36:21Z)
Improved Policy Evaluation for Randomized Trials of Algorithmic Resource Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文参考訳（メタデータ） (2023-02-06T05:17:22Z)
Optimal Treatment Regimes for Proximal Causal Learning [7.672587258250301]
そこで本研究では,橋梁における結果と治療の相違に基づく最適な個別化治療体制を提案する。この新たな最適治療体制の価値関数は,文献上に存在するものよりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-19T14:29:25Z)
Empirical Bayesian Approaches for Robust Constraint-based Causal Discovery under Insufficient Data [38.883810061897094]
因果発見法は、多くの実世界のデータセットではそうではないかもしれないデータ飽和度を仮定する。本研究では,制約に基づく因果探索手法の性能向上を図るため,ベイジアンによる頻繁な独立性試験を提案する。実験の結果,SOTA法よりも精度と効率が向上した。
論文参考訳（メタデータ） (2022-06-16T21:08:49Z)
Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文参考訳（メタデータ） (2022-03-09T01:55:59Z)
Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。この課題に対処するための新しいクロスバリデーションのような方法論を提供する。本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文参考訳（メタデータ） (2021-12-14T17:53:01Z)
Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文参考訳（メタデータ） (2020-10-21T13:43:48Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Understanding and Mitigating the Limitations of Prioritized Experience Replay [46.663239542920984]
優先順位付け再生体験(ER)は、多くのドメインでサンプル効率を改善するために実証的に示されている。平均二乗誤差に対する誤差に基づく優先サンプリング法と立方体電力損失に対する一様サンプリング法との等価性を示す。次に,早期学習における一様サンプリングによる収束率の向上について理論的考察を行った。
論文参考訳（メタデータ） (2020-07-19T03:10:02Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)
Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文参考訳（メタデータ） (2020-03-31T20:43:28Z)
PAPRIKA: Private Online False Discovery Rate Control [27.698099204682105]
サンプルの差分プライバシーの制約の下で, 仮説テストにおけるFalse Discovery Rate (FDR) の制御について検討した。我々は、非プライベートなオンラインFDR制御における最先端の結果に基づく新しいプライベートアルゴリズムを提供する。
論文参考訳（メタデータ） (2020-02-27T18:42:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。