論文の概要: Incrementality Bidding via Reinforcement Learning under Mixed and
Delayed Rewards
- arxiv url: http://arxiv.org/abs/2206.01293v1
- Date: Thu, 2 Jun 2022 20:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 15:25:38.270767
- Title: Incrementality Bidding via Reinforcement Learning under Mixed and
Delayed Rewards
- Title(参考訳): 混合報酬と遅延報酬による強化学習による漸進性入札
- Authors: Ashwinkumar Badanidiyuru, Zhe Feng, Tianxi Li, Haifeng Xu
- Abstract要約: 本稿では,広告主がオンライン方式で入札シーケンスを最適化する方法の問題点について考察する。
変換の漸進性を学習するための新しいペアワイズモーメントマッチングアルゴリズムを提案し,解析する。
- 参考スコア(独自算出の注目度): 19.706537692836744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incrementality, which is used to measure the causal effect of showing an ad
to a potential customer (e.g. a user in an internet platform) versus not, is a
central object for advertisers in online advertising platforms. This paper
investigates the problem of how an advertiser can learn to optimize the bidding
sequence in an online manner \emph{without} knowing the incrementality
parameters in advance. We formulate the offline version of this problem as a
specially structured episodic Markov Decision Process (MDP) and then, for its
online learning counterpart, propose a novel reinforcement learning (RL)
algorithm with regret at most $\widetilde{O}(H^2\sqrt{T})$, which depends on
the number of rounds $H$ and number of episodes $T$, but does not depend on the
number of actions (i.e., possible bids). A fundamental difference between our
learning problem from standard RL problems is that the realized reward feedback
from conversion incrementality is \emph{mixed} and \emph{delayed}. To handle
this difficulty we propose and analyze a novel pairwise moment-matching
algorithm to learn the conversion incrementality, which we believe is of
independent of interest.
- Abstract(参考訳): インクリメンタリティ(インクリメンタリティ、英語: Incrementality)は、オンライン広告プラットフォームの広告主にとって、潜在的な顧客(例えばインターネットプラットフォームのユーザー)に広告を表示することの因果効果を測定するために用いられる。
本稿では,広告主が事前にインクリメンタルなパラメータを把握して,オンライン方式で入札順序を最適化する方法の問題点について検討する。
この問題のオフライン版を、特別な構造化エピソディックマルコフ決定プロセス(mdp)として定式化し、オンライン学習に対応するために、最大$\widetilde{o}(h^2\sqrt{t})$を後悔する新しい強化学習(rl)アルゴリズムを提案し、ラウンド数$h$とエピソード数$t$に依存するが、アクション数(すなわち入札)には依存しない。
我々の学習問題と標準rl問題との根本的な違いは、変換の漸進性から得られる報奨フィードバックが \emph{mixed} と \emph{delayed} である。
このような困難に対処するために,我々は,新しいペアワイズモーメントマッチングアルゴリズムを提案し,解析し,変換インクリメンタル性を学ぶ。
関連論文リスト
- Learning in Budgeted Auctions with Spacing Objectives [41.63843740537835]
多くのオークションでは、参加者は勝利の頻度だけでなく、勝利が時間とともにどのように分配されるかに気を配る。
我々は,この現象の簡単なモデルを導入し,勝利の値が最後の勝利以来のコンケーブ関数であるような,予算付きオークションとしてモデル化する。
状態に依存しない戦略は変換の不確かさを伴わずに線形後悔を引き起こすことを示す。
論文 参考訳(メタデータ) (2024-11-07T16:31:31Z) - Improved Online Learning Algorithms for CTR Prediction in Ad Auctions [8.2536631346421]
広告オークションにおける収益のオンライン学習問題について検討する。
広告主の戦略的行動の2つのモデルに焦点を当てる。
我々は,高信頼度境界に基づくオンラインメカニズムを開発し,O(sqrtT)$後悔の度合いを実現する。
論文 参考訳(メタデータ) (2024-02-29T14:10:26Z) - Online Conversion with Switching Costs: Robust and Learning-Augmented Algorithms [11.029788598491077]
エネルギーとサステナビリティの交差点で発生した問題を捉えるオンライン問題の一群である,スイッチングコストによるオンライン変換について検討する。
本稿では,この問題の決定論的および決定論的変異に対して,競合的(ロバストな)しきい値に基づくアルゴリズムを導入する。
そこで我々は,ブラックボックスのアドバイスを活かした学習強化アルゴリズムを提案し,平均ケース性能を著しく向上させた。
論文 参考訳(メタデータ) (2023-10-31T16:34:49Z) - Online Learning in Contextual Second-Price Pay-Per-Click Auctions [47.06746975822902]
オンライン学習は、クリック単価のオークションで学習し、そこでは、各ラウンドのT$で、学習者がいくつかのコンテキストと広告を受信する。
学習者のゴールは、彼女の後悔を最小限に抑えることであり、それは彼女の総収入と託宣戦略のギャップとして定義される。
論文 参考訳(メタデータ) (2023-10-08T07:04:22Z) - Dynamic Pricing and Learning with Bayesian Persuasion [18.59029578133633]
我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境を考える。
我々は、バイエルンの一般的な説得フレームワークを使用して、これらのシグナルが購入者の評価と購入反応に与える影響をモデル化する。
我々は、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-27T17:52:06Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Learning to Infer User Hidden States for Online Sequential Advertising [52.169666997331724]
本稿では,これらの問題に対処するディープインテントシーケンス広告(DISA)手法を提案する。
解釈可能性の鍵となる部分は、消費者の購入意図を理解することである。
論文 参考訳(メタデータ) (2020-09-03T05:12:26Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Online Learning with Imperfect Hints [72.4277628722419]
オンライン学習において,不完全な方向ヒントを用いたアルゴリズムを開発し,ほぼ一致している。
我々のアルゴリズムはヒントの品質を損なうものであり、後悔の限界は常に相関するヒントの場合と隠れない場合とを補間する。
論文 参考訳(メタデータ) (2020-02-11T23:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。