論文の概要: Optimal Bidding Strategy without Exploration in Real-time Bidding
- arxiv url: http://arxiv.org/abs/2004.00100v1
- Date: Tue, 31 Mar 2020 20:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 23:53:56.366697
- Title: Optimal Bidding Strategy without Exploration in Real-time Bidding
- Title(参考訳): リアルタイム入札における探索のない最適入札戦略
- Authors: Aritra Ghosh, Saayan Mitra, Somdeb Sarkhel, Viswanathan Swaminathan
- Abstract要約: 予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
- 参考スコア(独自算出の注目度): 14.035270361462576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximizing utility with a budget constraint is the primary goal for
advertisers in real-time bidding (RTB) systems. The policy maximizing the
utility is referred to as the optimal bidding strategy. Earlier works on
optimal bidding strategy apply model-based batch reinforcement learning methods
which can not generalize to unknown budget and time constraint. Further, the
advertiser observes a censored market price which makes direct evaluation
infeasible on batch test datasets. Previous works ignore the losing auctions to
alleviate the difficulty with censored states; thus significantly modifying the
test distribution. We address the challenge of lacking a clear evaluation
procedure as well as the error propagated through batch reinforcement learning
methods in RTB systems. We exploit two conditional independence structures in
the sequential bidding process that allow us to propose a novel practical
framework using the maximum entropy principle to imitate the behavior of the
true distribution observed in real-time traffic. Moreover, the framework allows
us to train a model that can generalize to the unseen budget conditions than
limit only to those observed in history. We compare our methods on two
real-world RTB datasets with several baselines and demonstrate significantly
improved performance under various budget settings.
- Abstract(参考訳): 予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
効用を最大化する政策は最適入札戦略(optimize bidding strategy)と呼ばれる。
最適な入札戦略に関する以前の研究は、未知の予算や時間制約に一般化できないモデルベースのバッチ強化学習手法を適用している。
さらに、広告主は、バッチテストデータセットで直接評価できない検閲された市場価格を観察する。
以前の作品では、検閲された状態の難しさを和らげるために落札されたオークションを無視している。
本稿では,RTBシステムにおけるバッチ強化学習手法による誤りと,明確な評価手順の欠如に対処する。
我々は,リアルタイムトラヒックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的な枠組みを提案するために,逐次入札プロセスにおいて2つの条件付き独立構造を利用する。
さらに、このフレームワークは、歴史に見るものだけに限らず、目に見えない予算条件に一般化できるモデルを訓練することができる。
提案手法を実世界のRTBデータセットといくつかのベースラインで比較し,様々な予算設定下での大幅な性能向上を示す。
関連論文リスト
- Metalearners for Ranking Treatment Effects [1.469168639465869]
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T15:31:18Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising [47.14651340748015]
本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
論文 参考訳(メタデータ) (2022-12-06T18:50:09Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - ROI Constrained Bidding via Curriculum-Guided Bayesian Reinforcement
Learning [34.82004227655201]
非定常市場におけるROI制約入札を専門とする。
部分観測可能な制約付きマルコフ決定プロセスに基づいて,非単調な制約を満たすための最初のハードバリアソリューションを提案する。
本手法は,パラメータフリーなインジケータ強化報酬関数を利用して,カリキュラムガイドベイズ強化学習フレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-10T17:30:12Z) - Arbitrary Distribution Modeling with Censorship in Real-Time Bidding
Advertising [2.562910030418378]
インベントリプライシングの目的は、オンライン広告の機会に適切な価格を入札することであり、これはデマンド・サイド・プラットフォーム(DSP)がリアルタイム入札(RTB)で競売に勝つために不可欠である。
以前の作品の多くは、勝利価格の分布形式を強く仮定し、その正確さを減らし、一般化する能力を弱めた。
我々は,新たな損失関数であるNLL(Neighborhood Likelihood Loss)を提案し,検閲下での勝利価格分布を予測するためのフレームワークであるArbitrary Distribution Modeling(ADM)と協調する。
論文 参考訳(メタデータ) (2021-10-26T11:40:00Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z) - Scalable Bid Landscape Forecasting in Real-time Bidding [12.692521867728091]
プログラム広告では、広告スロットは通常、第二価格(SP)オークションを使ってリアルタイムで販売される。
SPでは、1つの項目に対して、各入札者の支配的な戦略は、入札者の視点から真の価値を入札することである。
本稿では,ヘテロセダスティックな完全パラメトリック・レグレッション・アプローチと混合密度・レグレッション・ネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-18T03:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。