論文の概要: Learning to Bid with Unknown Private Values in Budget-Constrained First-Price Auctions
- arxiv url: http://arxiv.org/abs/2605.09448v1
- Date: Sun, 10 May 2026 10:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.255626
- Title: Learning to Bid with Unknown Private Values in Budget-Constrained First-Price Auctions
- Title(参考訳): 予算制約付きファーストプライスオークションにおける未知のプライベートバリューの学習
- Authors: Zihao Hu, Yuxiao Wen, Yuan Yao, Jiheng Zhang, Zhengyuan Zhou,
- Abstract要約: 制約付きFPAに対して,遅延LTE評価パラメータと競合相手の入札分布を協調的に学習する,一元的二元的フレームワークを提案する。
推定誤差はラグランジアン乗算器によって動的にスケールされ、後悔を招く可能性がある。
提案手法は, ほぼ最適な後悔の保証を達成し, 潜在的評価を伴う制約入札に対する理論上は初めての解決法を提供する。
- 参考スコア(独自算出の注目度): 29.924744639408786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition to First-Price Auctions (FPA) in digital advertising has spurred significant research, yet existing work typically assumes access to a valuation oracle, ignoring the reality that values must be inferred from censored data. While Linear Treatment Effect (LTE) models address this by learning value uplift, they have not been adapted to realistic settings with hard Budget constraints or Return-on-Spend (RoS) targets requiring regret and violation control. In this work, we propose a unified primal-dual framework for constrained FPAs that jointly learns the latent LTE valuation parameters and the competitor's bid distribution. This simultaneous learning introduces a critical technical challenge: the estimation error is dynamically scaled by the Lagrangian multiplier, potentially leading to unbounded regret. We resolve this by leveraging a strong Slater condition and a novel adaptive burn-in procedure to stabilize the dual variables. Our approach achieves near-optimal regret guarantees, providing the first theoretically grounded solution for constrained bidding with latent valuations.
- Abstract(参考訳): デジタル広告におけるファースト・プライス・オークション(FPA)への移行は、重要な研究のきっかけとなったが、既存の研究は一般に、検閲されたデータから価値を推測しなければならないという現実を無視して、評価のオラクルへのアクセスを前提としている。
線形処理効果(LTE)モデルは、値アップリフトの学習によってこの問題に対処するが、ハードバジェット制約やリターン・オン・スプレッド(RoS)ターゲットによる現実的な設定には適応していない。
本研究では,制約付きFPAに対して,遅延LTE評価パラメータと競合相手の入札分布を協調的に学習する,一元的二元的フレームワークを提案する。
推定誤差はラグランジアン乗算器によって動的にスケールされ、潜在的に無拘束の後悔につながる。
我々は、強いスレーター条件と新しい適応的バーンイン手順を利用して、双対変数を安定化することでこれを解決する。
提案手法は, ほぼ最適な後悔の保証を達成し, 潜在的評価を伴う制約入札に対する理論上は初めての解決法を提供する。
関連論文リスト
- Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation [50.23374353859762]
多様な単発デモを収集することで「最大限のカバレッジ」を達成できる。
我々は、この現象を包括的-密度トレードオフとして定式化する。
Anchor-Centric Adaptation (ACA) は、2段階のフレームワークで、まずコアアンカーでの繰り返しデモを通じてポリシースケルトンを安定化し、次に教師力によるエラーマイニングと制約付き残差更新を通じて高リスク境界までカバー範囲を広げる。
論文 参考訳(メタデータ) (2026-05-08T07:35:24Z) - A Perturbation Approach to Unconstrained Linear Bandits [48.45987210959519]
我々は、制約のない帯域線形最適化(uBLO)の文脈で、Abernethy et al. (2008) の標準摂動に基づくアプローチを再考する。
制約のない環境では、バンド線形最適化(BLO)を標準オンライン線形最適化(OLO)問題に効果的に還元することを示す。
論文 参考訳(メタデータ) (2026-03-30T09:17:46Z) - Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions [89.52532304099522]
フェデレートラーニング(FL)は、クライアントが生データを集中せずに共有モデルを共同でトレーニングすることを可能にし、固有のプライバシーレベルを提供する。
グラデーションとモデル更新は機密情報を漏洩する可能性があるが、悪意のあるサーバはビザンティン操作のような敵攻撃をマウントする可能性がある。
これらの脆弱性は、統合されたフレームワーク内の差分プライバシー(DP)とビザンチンの堅牢性に対処する必要性を強調している。
Byz-Clip21-SGD2Mを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:39:09Z) - Constraint-Aware Generative Auto-bidding via Pareto-Prioritized Regret Optimization [8.514099612407062]
PRO-Bidは2つの相乗的メカニズムに基づく制約対応な自動入札フレームワークである。
最先端のベースラインに比べて、制約満足度や価値獲得に優れています。
論文 参考訳(メタデータ) (2026-02-09T04:41:30Z) - Generative Bid Shading in Real-Time Bidding Advertising [7.7746704524695485]
本稿では,生成バイドシェーディング(GBS)をエンドツーエンド生成モデルとして紹介する。
これは、段階的に残差報酬モデルを取得することで比率を生成する自己回帰的アプローチを取り入れている。
Meitプラットフォーム上で毎日何十億もの入札リクエストを処理している。
論文 参考訳(メタデータ) (2025-08-06T03:34:49Z) - Off-Policy Primal-Dual Safe Reinforcement Learning [16.918188277722503]
本研究では, 累積コスト推定における誤差が, 法外手法を用いた場合のコストの大幅な過小評価を引き起こすことを示す。
本稿では,予測の不確実性を考慮し,制約充足領域の政策を学習する保守的な政策最適化を提案する。
次に,評価の不確実性を徐々に減少させることにより,そのような過小評価の解消を支援するために,局所的な政策凸化を導入する。
論文 参考訳(メタデータ) (2024-01-26T10:33:38Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。