論文の概要: Support-aware offline policy selection for advertising marketplaces
- arxiv url: http://arxiv.org/abs/2605.21736v1
- Date: Wed, 20 May 2026 20:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.993908
- Title: Support-aware offline policy selection for advertising marketplaces
- Title(参考訳): 広告市場におけるオフラインポリシー選択支援
- Authors: Prashant Shekhar, Caroline Howard,
- Abstract要約: 本稿では,予備選挙選択を支援するオフライン意思決定フレームワークを開発する。
記録された証拠を、認証された政策、統計的に支配的な代替案、未解決の候補者からなる保守的な決定対象に変換する。
- 参考スコア(独自算出の注目度): 0.5013248430919224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logged advertising auctions make offline reserve-price evaluation attractive but risky. Replay tables can identify policies with large apparent yield gains, yet they can also hide weak threshold support, multiple-comparison effects, subgroup harm, and bidder-response uncertainty. Existing replay and off-policy evaluation methods estimate or rank policy values, but they do not directly answer the operational question of whether the available evidence is strong enough to justify validation. This paper develops a support-aware offline decision framework for reserve-policy selection. Rather than outputting a single point-estimate winner, the framework converts logged evidence into a conservative decision object consisting of certified policies, statistically dominated alternatives, and unresolved candidates requiring further validation. The main theoretical result gives a unified finite-catalog guarantee showing that, under simultaneous uncertainty control and conservative support gates, the framework preserves the best gate-passing policy while eliminating only policies with certified regret. Supporting results characterize support-localized replay generalization, establish information-theoretic threshold-resolution limits, and quantify when heterogeneous bidder response can overturn localized replay rankings. Experiments on iPinYou real-time-bidding logs show that the leading reserve rule achieves a 47.66% replay lift in season two, a 40.71% simultaneous lower-bound lift, and a 43.87% frozen out-of-time replay lift in season three. The framework reduces a 19-policy catalog to a two-policy validation shortlist while certifying non-harm across 44 advertiser, exchange, and region segments. The results support the central claim that offline reserve-policy evaluation should produce certified validation decisions rather than point-estimate rankings alone.
- Abstract(参考訳): ログ広告のオークションは、オフライン予約価格の評価を魅力的だがリスクが高いものにしている。
リプレイテーブルは、明らかな利得が大きい政策を識別することができるが、弱いしきい値支持、多重比較効果、サブグループハーネス、入札者-レスポンスの不確実性を隠蔽することもできる。
既存のリプレイおよび非政治評価手法は、政策価値を推定またはランク付けするが、有効な証拠が検証を正当化するのに十分強いかどうかという運用上の疑問に直接答えるものではない。
本稿では,予備選挙選択を支援するオフライン意思決定フレームワークを開発する。
単一のポイント推定勝者を出力するのではなく、このフレームワークは、ログされた証拠を認証されたポリシー、統計的に支配的な代替案、さらなる検証を必要とする未解決候補からなる保守的な決定対象に変換する。
主要な理論的な結果は、同時不確実性制御と保守的な支持ゲートの下では、このフレームワークが最高のゲート通過ポリシーを維持しつつ、証明された後悔を伴うポリシーのみを排除していることを示す、統一された有限触媒保証を与える。
サポート結果は、サポート局所化リプレイ一般化を特徴付け、情報理論しきい値分解限界を確立し、不均一な入札者応答がローカライズされたリプレイランキングを覆すことができるかどうかを定量化する。
iPinYouのリアルタイムバイディングログの実験では、リードリザーブルールはシーズン2で47.66%のリプレイリフト、40.71%の同時ローバウンドリフト、シーズン3で43.87%のフリーズアウトタイムリプレイリフトを達成した。
このフレームワークは、19の政治カタログを2つの政治検証ショートリストに減らし、44の広告主、交換、および地域セグメントの非ハームを認定する。
結果は、オフラインのリザーブ・ポリシー評価は、ポイント推定ランキングのみではなく、認定されたバリデーション決定を生成するべきだという中心的な主張を支持している。
関連論文リスト
- When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State [0.39287497907611874]
アウトカムのみの評価は経済的に安全でないエージェントを認定することができる。
隠れた競合状態のホテル料金では、学習者はルールベースの収益管理政策の利率規律を保ちつつ、利用可能な部屋当たりのもっともらしい収入を達成することができる。
トレースに基づく評価パラダイムである規律安定性を導入する。
論文 参考訳(メタデータ) (2026-05-18T15:58:34Z) - Decision Support for Marketplace Policies under Incomplete Evidence: From Replay to Launch Readiness [0.5013248430919224]
本稿では,有望な証拠と実効性のある証拠とを区別するDSS(Support-Aware decision- supported system)を提案する。
このフレームワークは、リプレイ、サポート対応のオフポリシー評価(OPE)、保守的な下限ランキング、マルチサイドガードレール、アウトオブタイムバリデーション、感度分析、干渉対応のバリデーション設計を統合している。
フレームワークをiPinYouスタイルのRTBログに適用することで、マージンゲートのフロアポリシーを主要な候補と特定する。
論文 参考訳(メタデータ) (2026-05-13T00:26:50Z) - Reward Hacking in Rubric-Based Reinforcement Learning [23.418394508756464]
そこでは,ルールをトレーニング検証器に対して最適化するが,フロンティアの3人の審査員の家族間パネルに対して評価を行う。
我々のフレームワークは、検証失敗とルーブリック設計の制限という2つの違いの源を分離している。
医学領域と科学領域全体において、弱い検証器は参照検証器に転送されない大きなプロキシ・リワードゲインを生成する。
論文 参考訳(メタデータ) (2026-05-12T17:54:25Z) - Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration [31.29584002718744]
本稿では,2つの重要なイノベーションを持つ信頼性の高いKGQAフレームワークであるConformal Path Reasoning (CPR)を提案する。
まず、経路レベルのスコアに対してクエリレベルの共形キャリブレーションを行い、経路予測セットを生成しながら交換性を維持する。
第2にResidual Conformal Value Network (RCVNet)を導入する。これはPUCT誘導探索によって訓練された軽量モジュールで、識別パスレベルの非整合性スコアを学習する。
論文 参考訳(メタデータ) (2026-05-08T17:57:13Z) - Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - The Decisive Power of Indecision: Low-Variance Risk-Limiting Audits and Election Contestation via Marginal Mark Recording [51.82772358241505]
リスクリミット監査(リスクリミット監査、RLA)は、大規模な選挙の結果を検証する技術である。
我々は、効率を改善し、統計力の進歩を提供する監査の新たなファミリーを定めている。
新しい監査は、複数の可能なマーク解釈を宣言できるように、キャストボイトレコードの標準概念を再考することで実現される。
論文 参考訳(メタデータ) (2024-02-09T16:23:54Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。