論文の概要: Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in Ad Auctions
- arxiv url: http://arxiv.org/abs/2512.03354v1
- Date: Wed, 03 Dec 2025 01:37:42 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:55:30.691036
- Title: Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in Ad Auctions
- Title(参考訳): 破壊的決定論: 広告オークションにおける信頼性の高いオフポリティ評価のための確率的モデリング
- Authors: Hongseon Yeom, Jaeyoul Shin, Soojin Min, Jeongmin Yoon, Seunghak Yu, Dongyeop Kang,
- Abstract要約: この研究は、決定論的オークション環境における信頼性の高いオフ・ポリティ・アセスメント(OPE)のための、初めて実用的で検証されたフレームワークに貢献する。
提案手法は,提案手法を用いて提案した提案手法を,提案手法を用いて提案する提案手法である。
AuctionNetシミュレーションベンチマークと大規模産業プラットフォームによる2週間のオンラインA/Bテストに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 16.315158617837646
- License:
- Abstract: Online A/B testing, the gold standard for evaluating new advertising policies, consumes substantial engineering resources and risks significant revenue loss from deploying underperforming variations. This motivates the use of Off-Policy Evaluation (OPE) for rapid, offline assessment. However, applying OPE to ad auctions is fundamentally more challenging than in domains like recommender systems, where stochastic policies are common. In online ad auctions, it is common for the highest-bidding ad to win the impression, resulting in a deterministic, winner-takes-all setting. This results in zero probability of exposure for non-winning ads, rendering standard OPE estimators inapplicable. We introduce the first principled framework for OPE in deterministic auctions by repurposing the bid landscape model to approximate the propensity score. This model allows us to derive robust approximate propensity scores, enabling the use of stable estimators like Self-Normalized Inverse Propensity Scoring (SNIPS) for counterfactual evaluation. We validate our approach on the AuctionNet simulation benchmark and against 2-weeks online A/B test from a large-scale industrial platform. Our method shows remarkable alignment with online results, achieving a 92\% Mean Directional Accuracy (MDA) in CTR prediction, significantly outperforming the parametric baseline. MDA is the most critical metric for guiding deployment decisions, as it reflects the ability to correctly predict whether a new model will improve or harm performance. This work contributes the first practical and validated framework for reliable OPE in deterministic auction environments, offering an efficient alternative to costly and risky online experiments.
- Abstract(参考訳): 新たな広告ポリシーを評価するための金の標準であるオンラインA/Bテストは、相当なエンジニアリングリソースを消費し、パフォーマンスの低いバリエーションの展開による大きな収益損失のリスクを負う。
これは、迅速なオフライン評価にOPE(Off-Policy Evaluation)を使用することを動機付けている。
しかし、OPEを広告オークションに適用することは、確率的ポリシーが一般的であるレコメンデーターシステムのようなドメインよりも根本的に難しい。
オンライン広告オークションでは、最高のビジン広告がインプレッションを勝ち取るのが一般的であり、決定論的で勝者に満ちた設定になる。
これにより、非勝利広告の露出確率がゼロとなり、標準のOPE推定器が適用不可能となる。
提案手法は,提案手法を用いて提案した提案手法を,提案手法を用いて提案する提案手法である。
このモデルにより、ロバストな近似確率スコアを導出し、自己Normalized Inverse Propensity Scoring (SNIPS) のような安定な推定器を対物評価に用いることができる。
AuctionNetシミュレーションベンチマークと大規模産業プラットフォームによる2週間のオンラインA/Bテストに対するアプローチを検証する。
提案手法は,CTR予測における平均方向精度 (MDA) の92 %を達成し,パラメトリックベースラインを著しく上回り,オンライン結果と顕著な一致を示した。
MDAは、新しいモデルがパフォーマンスを改善または損なうかどうかを正確に予測する能力を反映しているため、デプロイメント決定を導く上で最も重要な指標である。
この研究は、決定論的オークション環境において、信頼性の高いOPEのための最初の実用的で検証されたフレームワークに貢献し、コストが高くてリスクの高いオンライン実験の効率的な代替手段を提供する。
関連論文リスト
- Profit over Proxies: A Scalable Bayesian Decision Framework for Optimizing Multi-Variant Online Experiments [0.0352925259310339]
オンライン制御実験(A/Bテスト)は、デジタル経済におけるデータ駆動型意思決定の基礎である。
p-value"は偽陽性率を膨らませ、変換レートのようなプロキシメトリクスへの過度な依存は、必然的にビジネスの黒字化を損なう決定につながる可能性がある。
本稿では,多変量(A/B/n)実験における利益最適化を目的とした包括的かつスケーラブルなベイズ決定フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-16T02:24:20Z) - Off-Policy Evaluation and Learning for Matching Markets [15.585641615174623]
オフラインログデータのみを使用してレコメンデーションポリシーの評価を可能にすることで、オフポリシー評価(OPE)が重要な役割を果たす。
我々は、マッチング市場向けに特別に設計された新しいOPE推定器、textitDiPS、textitDPRを提案する。
本手法は, 直接法(DM), 逆確率スコア(IPS), 二重ロバスト(DR)推定器の要素を組み合わせる。
論文 参考訳(メタデータ) (2025-07-18T02:23:37Z) - Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy
Evaluation [17.319113169622806]
Off-Policy Evaluation (OPE) は、オフラインログデータのみを使用して、反ファクトポリシーの有効性を評価することを目的としている。
OPE推定器の既存の評価指標は、主にOPEの「正確性」や下流政策の選択に焦点を当てている。
我々は、OPE推定器によって形成される政策ポートフォリオのリスク・リターントレードオフを測定するSharpeRatio@kと呼ばれる新しい指標を開発する。
論文 参考訳(メタデータ) (2023-11-30T02:56:49Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z) - Arbitrary Distribution Modeling with Censorship in Real-Time Bidding
Advertising [2.562910030418378]
インベントリプライシングの目的は、オンライン広告の機会に適切な価格を入札することであり、これはデマンド・サイド・プラットフォーム(DSP)がリアルタイム入札(RTB)で競売に勝つために不可欠である。
以前の作品の多くは、勝利価格の分布形式を強く仮定し、その正確さを減らし、一般化する能力を弱めた。
我々は,新たな損失関数であるNLL(Neighborhood Likelihood Loss)を提案し,検閲下での勝利価格分布を予測するためのフレームワークであるArbitrary Distribution Modeling(ADM)と協調する。
論文 参考訳(メタデータ) (2021-10-26T11:40:00Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。