論文の概要: Adaptive Bidding Policies for First-Price Auctions with Budget Constraints under Non-stationarity
- arxiv url: http://arxiv.org/abs/2505.02796v1
- Date: Mon, 05 May 2025 17:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.753114
- Title: Adaptive Bidding Policies for First-Price Auctions with Budget Constraints under Non-stationarity
- Title(参考訳): 非定常条件下での予算制約付き1次競売の適応的入札政策
- Authors: Yige Wang, Jiashuo Jiang,
- Abstract要約: 本研究では、予算制約のある入札者が、その累積支払額を最大化するために、繰り返し第1価格のオークションに適応的に入札することを学ばなければならないかを検討する。
本稿では, 入札者が予算を消費するときに, 予算制約の2変数を維持できる, 単純二段階入札方式を提案する。
- 参考スコア(独自算出の注目度): 2.545794786290118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how a budget-constrained bidder should learn to adaptively bid in repeated first-price auctions to maximize her cumulative payoff. This problem arose due to an industry-wide shift from second-price auctions to first-price auctions in display advertising recently, which renders truthful bidding (i.e., always bidding one's private value) no longer optimal. We propose a simple dual-gradient-descent-based bidding policy that maintains a dual variable for budget constraint as the bidder consumes her budget. In analysis, we consider two settings regarding the bidder's knowledge of her private values in the future: (i) an uninformative setting where all the distributional knowledge (can be non-stationary) is entirely unknown to the bidder, and (ii) an informative setting where a prediction of the budget allocation in advance. We characterize the performance loss (or regret) relative to an optimal policy with complete information on the stochasticity. For uninformative setting, We show that the regret is \tilde{O}(\sqrt{T}) plus a variation term that reflects the non-stationarity of the value distributions, and this is of optimal order. We then show that we can get rid of the variation term with the help of the prediction; specifically, the regret is \tilde{O}(\sqrt{T}) plus the prediction error term in the informative setting.
- Abstract(参考訳): 本研究では、予算制約のある入札者が、その累積支払額を最大化するために、繰り返し第1価格のオークションに適応的に入札することを学ばなければならないかを検討する。
この問題は、最近の広告広告における第2価格のオークションから第1価格のオークションへの業界全体のシフトによって生じたものであり、真に入札する(すなわち、常に自己のプライベートな価値を入札する)ことはもはや最適ではない。
本稿では, 入札者が予算を消費するときに, 予算制約の2変数を維持できる, 単純二段階入札方式を提案する。
分析では、入札者の将来的な私的価値に関する知識に関する2つの設定について考察する。
一 すべての分布知識(非定常的であることができる)が入札者に対して完全に不明な非形式的設定
二 予算配分の予測を事前に行う情報的設定
確率性に関する完全な情報を持つ最適政策に対する性能損失(または後悔)を特徴付ける。
非形式的な設定に対しては、後悔は \tilde{O}(\sqrt{T}) であり、値分布の非定常性を反映する変分項であり、これは最適順序であることを示す。
次に、この予測の助けを借りて変分項を除去できることを示し、具体的には、後悔は情報的設定における予測誤差項に加えて \tilde{O}(\sqrt{T}) である。
関連論文リスト
- Online Bidding under RoS Constraints without Knowing the Value [22.193658401789033]
オンライン広告における入札の問題は、広告主が予算や返品制限に固執しながら価値を最大化することを目的としている。
本稿では、このトレードオフを慎重に管理する新しいアッパー信頼境界(UCB)スタイルのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-05T05:25:54Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising [47.14651340748015]
本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
論文 参考訳(メタデータ) (2022-12-06T18:50:09Z) - Leveraging the Hints: Adaptive Bidding in Repeated First-Price Auctions [42.002983450368134]
プライスオークションでの競売の仕方について検討する。
第二価格のオークションとは異なり、個人価値を真に入札することはもはや最適ではない。
1つは1つの点予測が可能であり、もう1つはヒント間隔が利用可能である。
論文 参考訳(メタデータ) (2022-11-05T19:20:53Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Fast Rate Learning in Stochastic First Price Bidding [0.0]
ファーストプライスのオークションは、プログラム広告におけるビックレーのオークションに基づく伝統的な入札アプローチを大きく置き換えている。
対戦相手の最大入札分布が分かっている場合, 後悔度を著しく低くする方法を示す。
我々のアルゴリズムは、様々な入札分布の文献で提案されている選択肢よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2021-07-05T07:48:52Z) - Optimal No-regret Learning in Repeated First-price Auctions [38.908235632001116]
オンライン学習を反復した初価オークションで研究する。
我々は,ほぼ最適の$widetildeO(sqrtT)$ regret boundを達成するための最初の学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-03-22T03:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。