論文の概要: Generative Bid Shading in Real-Time Bidding Advertising
- arxiv url: http://arxiv.org/abs/2508.06550v1
- Date: Wed, 06 Aug 2025 03:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.428371
- Title: Generative Bid Shading in Real-Time Bidding Advertising
- Title(参考訳): リアルタイム入札広告における生成バイドシェーディング
- Authors: Yinqiu Huang, Hao Ma, Wenshuai Chen, Shuli Wang, Yongqiang Zhang, Xue Wei, Yinhua Zhu, Haitao Wang, Xingxing Wang,
- Abstract要約: 本稿では,生成バイドシェーディング(GBS)をエンドツーエンド生成モデルとして紹介する。
これは、段階的に残差報酬モデルを取得することで比率を生成する自己回帰的アプローチを取り入れている。
Meitプラットフォーム上で毎日何十億もの入札リクエストを処理している。
- 参考スコア(独自算出の注目度): 7.7746704524695485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bid shading plays a crucial role in Real-Time Bidding~(RTB) by adaptively adjusting the bid to avoid advertisers overspending. Existing mainstream two-stage methods, which first model bid landscapes and then optimize surplus using operations research techniques, are constrained by unimodal assumptions that fail to adapt for non-convex surplus curves and are vulnerable to cascading errors in sequential workflows. Additionally, existing discretization models of continuous values ignore the dependence between discrete intervals, reducing the model's error correction ability, while sample selection bias in bidding scenarios presents further challenges for prediction. To address these issues, this paper introduces Generative Bid Shading~(GBS), which comprises two primary components: (1) an end-to-end generative model that utilizes an autoregressive approach to generate shading ratios by stepwise residuals, capturing complex value dependencies without relying on predefined priors; and (2) a reward preference alignment system, which incorporates a channel-aware hierarchical dynamic network~(CHNet) as the reward model to extract fine-grained features, along with modules for surplus optimization and exploration utility reward alignment, ultimately optimizing both short-term and long-term surplus using group relative policy optimization~(GRPO). Extensive experiments on both offline and online A/B tests validate GBS's effectiveness. Moreover, GBS has been deployed on the Meituan DSP platform, serving billions of bid requests daily.
- Abstract(参考訳): バイドシェーディングは、広告主の過渡期を避けるために入札を適応的に調整することで、リアルタイムバイディング〜(RTB)において重要な役割を果たす。
既存の主流の2段階法は、まずランドスケープをモデル化し、次にオペレーションリサーチ技術を用いて余剰を最適化するが、非凸余剰曲線に適応できず、シーケンシャルワークフローのカスケードエラーに弱いという、一様の仮定によって制約される。
さらに、既存の連続値の離散化モデルは、離散区間間の依存を無視し、モデルの誤り訂正能力を低下させる一方、入札シナリオにおけるサンプル選択バイアスは、予測のためのさらなる課題を示す。
これらの課題に対処するために,(1) 段階的残差によるシェーディング比の生成に自己回帰的アプローチを利用するエンド・ツー・エンドの生成モデル,(2) チャネル認識階層型動的ネットワーク~(CHNet) を組み込んだ報酬選好調整システム,(2) 余剰最適化のためのモジュール,および実用性報酬アライメントを用いた短期的・長期的余剰を最終的に最適化する。
オフラインおよびオンラインA/Bテストの広範な実験は、GBSの有効性を検証する。
さらにGBSはMeituan DSPプラットフォームにデプロイされ、毎日何十億もの入札要求を処理している。
関連論文リスト
- When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Exploratory Recommendation [6.663356205396985]
大規模言語モデル(LLM)は、その多様なコンテンツ生成能力でポテンシャルを示す。
既存のLLM拡張デュアルモデルフレームワークには2つの大きな制限がある。
まず、グループアイデンティティによって引き起こされる長期的な嗜好を見落とし、関心モデリングのバイアスにつながる。
第二に、1回のアライメントプロセスでは、クローズドループ最適化にインクリメンタルなユーザデータを活用することができないため、静的な最適化の欠陥に悩まされる。
論文 参考訳(メタデータ) (2025-08-01T09:10:56Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Learning While Repositioning in On-Demand Vehicle Sharing Networks [4.724825031148413]
我々は、一方通行のオンデマンド車両共有サービスによるネットワーク在庫問題を考える。
自然なリプシッツ帯域法が$widetildeO(Tfracnn+1)$の後悔の保証を達成できることを示し、これは$n$に対する指数的依存に悩まされる。
これらの課題に乗じて、検閲された需要のみに依存するオンライン・グラディエント・リポジション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-31T15:16:02Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning [1.994307489466967]
有限地平線上の長期制約付きオンライン2段階最適化をT$周期で検討する。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-02-02T10:33:09Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。