論文の概要: Improved Online Learning Algorithms for CTR Prediction in Ad Auctions
- arxiv url: http://arxiv.org/abs/2403.00845v1
- Date: Thu, 29 Feb 2024 14:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:27:56.808424
- Title: Improved Online Learning Algorithms for CTR Prediction in Ad Auctions
- Title(参考訳): 広告オークションにおけるCTR予測のためのオンライン学習アルゴリズムの改良
- Authors: Zhe Feng, Christopher Liaw, Zixin Zhou
- Abstract要約: 広告オークションにおける収益のオンライン学習問題について検討する。
広告主の戦略的行動の2つのモデルに焦点を当てる。
我々は,高信頼度境界に基づくオンラインメカニズムを開発し,O(sqrtT)$後悔の度合いを実現する。
- 参考スコア(独自算出の注目度): 8.2536631346421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the online learning problem of revenue
maximization in ad auctions, where the seller needs to learn the click-through
rates (CTRs) of each ad candidate and charge the price of the winner through a
pay-per-click manner. We focus on two models of the advertisers' strategic
behaviors. First, we assume that the advertiser is completely myopic; i.e.~in
each round, they aim to maximize their utility only for the current round. In
this setting, we develop an online mechanism based on upper-confidence bounds
that achieves a tight $O(\sqrt{T})$ regret in the worst-case and negative
regret when the values are static across all the auctions and there is a gap
between the highest expected value (i.e.~value multiplied by their CTR) and
second highest expected value ad. Next, we assume that the advertiser is
non-myopic and cares about their long term utility. This setting is much more
complex since an advertiser is incentivized to influence the mechanism by
bidding strategically in earlier rounds. In this setting, we provide an
algorithm to achieve negative regret for the static valuation setting (with a
positive gap), which is in sharp contrast with the prior work that shows
$O(T^{2/3})$ regret when the valuation is generated by adversary.
- Abstract(参考訳): 本研究では,広告主が各広告候補のクリックスルーレート(CTR)を学習し,クリック単価で勝者の価格を課金する必要がある広告オークションにおける収益最大化のオンライン学習問題について検討する。
広告主の戦略行動の2つのモデルに焦点を当てます。
まず、広告主が完全に筋電図であると仮定する。つまり、各ラウンドにおいて、彼らは現在のラウンドでのみ有効性を最大化することを目指している。
この設定では、全てのオークションで値が静的であり、最大期待値(すなわち、CTRによって乗算される値)と2番目に高い期待値広告の間にギャップがある場合、最悪のケースではO(\sqrt{T})$後悔と負の後悔を達成できる上限に基づくオンラインメカニズムを開発する。
次に、広告主は非名物であり、その長期的な効用を気にかけていると仮定する。
この設定は、広告主が前回のラウンドで戦略的に入札することでメカニズムに影響を与えるインセンティブを与えるため、はるかに複雑である。
この設定では、静的な評価設定(正のギャップを持つ)に対する否定的な後悔を達成するアルゴリズムを提供するが、これは、相手によって評価が生成されると、$O(T^{2/3})の後悔を示す以前の作業と対照的である。
関連論文リスト
- A pragmatic policy learning approach to account for users' fatigue in repeated auctions [47.75983850930121]
MLモデルは、前回のオークションが現在の機会価値をどの程度獲得したかを予測することができる。
この予測を用いて、現在の競売の予想利益を最大化する政策を、患者と呼ぶことができる。
我々は、このコストの浸透の重要性について、実証的な2つの論証を提示した。
論文 参考訳(メタデータ) (2024-07-15T07:53:29Z) - No-Regret Algorithms in non-Truthful Auctions with Budget and ROI Constraints [0.9694940903078658]
本稿では、ROIと予算制約の対象となる価値を最適化するために、オンラインオートバイディングアルゴリズムを設計する問題について検討する。
我々の主な結果は、最高のリプシッツ関数に関して、ほぼ最適の$tilde O(sqrt T)$の後悔を保証する完全な情報フィードバックを持つアルゴリズムである。
論文 参考訳(メタデータ) (2024-04-15T14:31:53Z) - Online Learning in Contextual Second-Price Pay-Per-Click Auctions [47.06746975822902]
オンライン学習は、クリック単価のオークションで学習し、そこでは、各ラウンドのT$で、学習者がいくつかのコンテキストと広告を受信する。
学習者のゴールは、彼女の後悔を最小限に抑えることであり、それは彼女の総収入と託宣戦略のギャップとして定義される。
論文 参考訳(メタデータ) (2023-10-08T07:04:22Z) - Autobidders with Budget and ROI Constraints: Efficiency, Regret, and Pacing Dynamics [53.62091043347035]
オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。
本稿では,全ての制約を満たすことを保証し,個人の後悔を解消する勾配に基づく学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T21:59:30Z) - Leveraging the Hints: Adaptive Bidding in Repeated First-Price Auctions [42.002983450368134]
プライスオークションでの競売の仕方について検討する。
第二価格のオークションとは異なり、個人価値を真に入札することはもはや最適ではない。
1つは1つの点予測が可能であり、もう1つはヒント間隔が利用可能である。
論文 参考訳(メタデータ) (2022-11-05T19:20:53Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Fast Rate Learning in Stochastic First Price Bidding [0.0]
ファーストプライスのオークションは、プログラム広告におけるビックレーのオークションに基づく伝統的な入札アプローチを大きく置き換えている。
対戦相手の最大入札分布が分かっている場合, 後悔度を著しく低くする方法を示す。
我々のアルゴリズムは、様々な入札分布の文献で提案されている選択肢よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2021-07-05T07:48:52Z) - A novel auction system for selecting advertisements in Real-Time bidding [68.8204255655161]
リアルタイム入札(Real-Time Bidding)は、インターネット広告システムで、近年非常に人気を集めている。
本稿では、経済的な側面だけでなく、広告システムの機能にかかわる他の要因も考慮した、新たなアプローチによる代替ベッティングシステムを提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:41Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。