論文の概要: Decision Support for Marketplace Policies under Incomplete Evidence: From Replay to Launch Readiness
- arxiv url: http://arxiv.org/abs/2605.12840v1
- Date: Wed, 13 May 2026 00:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.736772
- Title: Decision Support for Marketplace Policies under Incomplete Evidence: From Replay to Launch Readiness
- Title(参考訳): 不完全なエビデンスの下でのマーケットプレースポリシーの決定サポート:リプレイから立ち上げ準備まで
- Authors: Prashant Shekhar, Caroline Howard,
- Abstract要約: 本稿では,有望な証拠と実効性のある証拠とを区別するDSS(Support-Aware decision- supported system)を提案する。
このフレームワークは、リプレイ、サポート対応のオフポリシー評価(OPE)、保守的な下限ランキング、マルチサイドガードレール、アウトオブタイムバリデーション、感度分析、干渉対応のバリデーション設計を統合している。
フレームワークをiPinYouスタイルのRTBログに適用することで、マージンゲートのフロアポリシーを主要な候補と特定する。
- 参考スコア(独自算出の注目度): 0.5013248430919224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Marketplace platforms routinely evaluate pricing and allocation policies using logged observational data, yet strong offline performance does not imply that a policy is safe to deploy. In real-time bidding (RTB) marketplaces, reserve-price and floor-policy changes affect not only revenue but also fill, advertiser value, budget pacing, and competition across auctions, creating feedback and interference. The central problem is therefore not to estimate whether a policy improves an offline metric, but to determine whether the available evidence justifies direct launch or only further validation. In this regard, we propose a support-aware decision-support system (DSS) that distinguishes promising from actionable evidence. The framework integrates replay, support-aware off-policy evaluation (OPE), conservative lower-bound ranking, multi-sided guardrails, out-of-time validation, sensitivity analysis, and interference-aware validation design into a claim-preserving pipeline that outputs a launch-readiness classification rather than a single performance estimate. Applying the framework to iPinYou-style RTB logs, we identify a margin-gated floor policy as the leading candidate, with a 47.7% replay yield lift, a 45.8% conservative lower-tail lift, and stable out-of-time performance. However, the framework does not recommend direct launch. A decision-rule ablation shows that simplified pipelines select the same policy but incorrectly recommend deployment, leaving key causal assumptions unresolved. In contrast, the proposed DSS selects the same policy but changes the action to online validation, reflecting missing evidence on propensities, bidder response, and interference. Overall, the contribution is a reproducible DSS protocol that prevents decision overclaim under partial identification and converts offline evaluation into an auditable, action-oriented recommendation.
- Abstract(参考訳): マーケットプレースプラットフォームは、ログ化された観測データを使用して、価格とアロケーションポリシを定期的に評価するが、強力なオフラインパフォーマンスは、ポリシのデプロイが安全であることを意味するものではない。
リアルタイム入札(RTB)市場では、リザーブ・プライスとフロア・ポリティクスが収益だけでなく、広告価値、予算削減、オークション間の競争にも影響を与え、フィードバックや干渉を生み出している。
したがって、政策がオフラインの指標を改善するかどうかを見積もるのではなく、利用可能な証拠が直接の発射を正当化するか、さらなる検証のみを正当化するかどうかを判断することである。
本稿では,有望な証拠と実効性のある証拠とを区別するDSS(Support-Aware decision- supported system)を提案する。
このフレームワークは、リプレイ、サポート対応のオフポリシー評価(OPE)、保守的な下限ランキング、マルチサイドガードレール、アウトオブタイムのバリデーション、感度分析、干渉対応のバリデーション設計をクレーム保存パイプラインに統合する。
フレームワークをiPinYouスタイルのRTBログに適用することで、47.7%のリプレイリフレクションリフト、45.8%の保守的なローテールリフト、そして、時間外パフォーマンスを備えた、マージンゲートフロアポリシーを主要な候補として特定する。
しかし、このフレームワークは直接起動を推奨していない。
決定ルールのアブレーションは、単純化されたパイプラインが同じポリシーを選択するが、誤ってデプロイメントを推奨し、主要な因果仮定が未解決のままであることを示している。
対照的に、提案したDSSは、同じ方針を選択するが、正当性、入札者反応、干渉に関する証拠の欠如を反映して、オンラインの検証に変更する。
全体として、コントリビューションは再現可能なDSSプロトコルであり、部分的識別による決定の過大評価を防止し、オフライン評価を監査可能なアクション指向のレコメンデーションに変換する。
関連論文リスト
- Preregistered Belief Revision Contracts [2.28438857884398]
PBRC(Preregistered Belief Revision Contracts)は,オープン通信と許容可能な変更を分離するプロトコルレベルのメカニズムである。
PBRC契約は、ファーストオーダーのエビデンストリガー、許容可能なリビジョンオペレータ、優先ルール、フォールバックポリシーを公に修正する。
本報告では,信頼軌道と正準化された監査トレースを保存したPBRC正規形式を,監査可能なトリガープロトコルで認めていることを示す。
論文 参考訳(メタデータ) (2026-04-16T22:22:54Z) - Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in Ad Auctions [16.315158617837646]
この研究は、決定論的オークション環境における信頼性の高いオフ・ポリティ・アセスメント(OPE)のための、初めて実用的で検証されたフレームワークに貢献する。
提案手法は,提案手法を用いて提案した提案手法を,提案手法を用いて提案する提案手法である。
AuctionNetシミュレーションベンチマークと大規模産業プラットフォームによる2週間のオンラインA/Bテストに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-12-03T01:37:42Z) - Off-Policy Evaluation and Learning for Matching Markets [15.585641615174623]
オフラインログデータのみを使用してレコメンデーションポリシーの評価を可能にすることで、オフポリシー評価(OPE)が重要な役割を果たす。
我々は、マッチング市場向けに特別に設計された新しいOPE推定器、textitDiPS、textitDPRを提案する。
本手法は, 直接法(DM), 逆確率スコア(IPS), 二重ロバスト(DR)推定器の要素を組み合わせる。
論文 参考訳(メタデータ) (2025-07-18T02:23:37Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。