論文の概要: Bid Optimization using Maximum Entropy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.05032v1
- Date: Mon, 11 Oct 2021 06:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 16:45:08.365724
- Title: Bid Optimization using Maximum Entropy Reinforcement Learning
- Title(参考訳): 最大エントロピー強化学習を用いた入札最適化
- Authors: Mengjuan Liu, Jinyu Liu, Zhengning Hu, Yuchen Ge, Xuyun Nie
- Abstract要約: 本稿では、リアルタイム入札(RTB)における強化学習(RL)を用いた広告主の入札戦略の最適化に焦点をあてる。
まず、広く受け入れられている線形入札関数を用いて、すべての印象のベース価格を計算し、RTBオークション環境から派生した可変調整係数で最適化する。
最後に、公開データセットに関する実証的研究により、提案した入札戦略がベースラインよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.3149883354098941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time bidding (RTB) has become a critical way of online advertising. In
RTB, an advertiser can participate in bidding ad impressions to display its
advertisements. The advertiser determines every impression's bidding price
according to its bidding strategy. Therefore, a good bidding strategy can help
advertisers improve cost efficiency. This paper focuses on optimizing a single
advertiser's bidding strategy using reinforcement learning (RL) in RTB.
Unfortunately, it is challenging to optimize the bidding strategy through RL at
the granularity of impression due to the highly dynamic nature of the RTB
environment. In this paper, we first utilize a widely accepted linear bidding
function to compute every impression's base price and optimize it by a mutable
adjustment factor derived from the RTB auction environment, to avoid optimizing
every impression's bidding price directly. Specifically, we use the maximum
entropy RL algorithm (Soft Actor-Critic) to optimize the adjustment factor
generation policy at the impression-grained level. Finally, the empirical study
on a public dataset demonstrates that the proposed bidding strategy has
superior performance compared with the baselines.
- Abstract(参考訳): リアルタイム入札(RTB)はオンライン広告の重要な方法となっている。
RTBでは、広告主がその広告を表示するために広告インプレッションの入札に参加することができる。
広告主は、すべての印象の入札価格を入札戦略に応じて決定する。
したがって、優れた入札戦略は広告主がコスト効率を改善するのに役立つ。
本稿では,RTBにおける強化学習(RL)を用いた広告主の入札戦略の最適化に焦点をあてる。
残念ながら、RTB環境の非常にダイナミックな性質のため、RLによる入札戦略を印象の粒度で最適化することは困難である。
本稿では,まず,広く受け入れられている線形入札関数を用いて,すべての印象のベース価格を計算し,rtbオークション環境から派生した可変調整因子により最適化することで,印象の入札価格の最適化を回避した。
具体的には、最大エントロピーrlアルゴリズム(soft actor-critic)を用いて、インプレッション粒度レベルで調整因子生成ポリシーを最適化する。
最後に、公開データセットに関する実証的研究により、提案した入札戦略がベースラインよりも優れた性能を示した。
関連論文リスト
- Rate-Optimal Policy Optimization for Linear Markov Decision Processes [65.5958446762678]
最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
論文 参考訳(メタデータ) (2023-08-28T15:16:09Z) - Demystifying Advertising Campaign Bid Recommendation: A Constraint
target CPA Goal Optimization [19.857681941728597]
本稿では,広告主が望むtCPA目標を達成するための入札最適化シナリオを提案する。
我々は厳格に定式化された制約付き最適化問題を解くことで決定を下すために最適化エンジンを構築した。
提案モデルでは,広告主の過去のオークション行動に対する推測を行うことで,広告主の期待に応える入札を自然に推奨することができる。
論文 参考訳(メタデータ) (2022-12-26T07:43:26Z) - Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising [47.14651340748015]
本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
論文 参考訳(メタデータ) (2022-12-06T18:50:09Z) - A Profit-Maximizing Strategy for Advertising on the e-Commerce Platforms [1.565361244756411]
提案手法は,対象のオーディエンスを実際の購入者へ変換する確率を最大化するために,最適な機能セットを見つけることを目的としている。
提案手法が予算制約で広告戦略を効果的に最適化できることを示すため,Tmall の現実データを用いた実証的研究を行った。
論文 参考訳(メタデータ) (2022-10-31T01:45:42Z) - Functional Optimization Reinforcement Learning for Real-Time Bidding [14.5826735379053]
リアルタイム入札はプログラム広告の新しいパラダイムである。
既存のアプローチは、入札最適化に十分なソリューションを提供するのに苦労しています。
本稿では,機能最適化を伴うRTBのためのマルチエージェント強化学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-25T06:12:17Z) - A Cooperative-Competitive Multi-Agent Framework for Auto-bidding in
Online Advertising [53.636153252400945]
本稿では,自動入札のための総合的マルチエージェント強化学習フレームワーク,すなわちMAABを提案し,自動入札戦略を学習する。
当社のアプローチは、社会的福祉の観点から、いくつかの基準的手法を上回り、広告プラットフォームの収益を保証します。
論文 参考訳(メタデータ) (2021-06-11T08:07:14Z) - We Know What You Want: An Advertising Strategy Recommender System for
Online Advertising [26.261736843187045]
本稿では,ディスプレイ広告プラットフォーム上での動的入札戦略レコメンデーションのためのレコメンデーションシステムを提案する。
ニューラルネットワークをエージェントとして使用して,広告主のプロファイルや過去の採用行動に基づいて,広告主の要求を予測する。
オンライン評価は、広告主の広告パフォーマンスを最適化できることを示している。
論文 参考訳(メタデータ) (2021-05-25T17:06:59Z) - A novel auction system for selecting advertisements in Real-Time bidding [68.8204255655161]
リアルタイム入札(Real-Time Bidding)は、インターネット広告システムで、近年非常に人気を集めている。
本稿では、経済的な側面だけでなく、広告システムの機能にかかわる他の要因も考慮した、新たなアプローチによる代替ベッティングシステムを提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:41Z) - Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential
Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。
理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。
強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文 参考訳(メタデータ) (2020-06-29T18:50:35Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z) - Online Causal Inference for Advertising in Real-Time Bidding Auctions [1.9336815376402723]
本稿では,リアルタイム入札システムを通じて購入した広告に対する因果推論を行うための新しい手法を提案する。
まず、広告の効果が最適な入札によって識別されることを示す。
マルチアームバンディット問題を解くために,適応型トンプソンサンプリング(TS)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2019-08-22T21:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。