論文の概要: Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising
- arxiv url: http://arxiv.org/abs/2212.12533v1
- Date: Tue, 6 Dec 2022 18:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 14:24:28.228143
- Title: Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising
- Title(参考訳): ディスプレイ広告における予算制約を伴う適応型リスクアウェア入札
- Authors: Zhimeng Jiang, Kaixiong Zhou, Mi Zhang, Rui Chen, Xia Hu, Soo-Hyun
Choi
- Abstract要約: 本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
- 参考スコア(独自算出の注目度): 47.14651340748015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time bidding (RTB) has become a major paradigm of display advertising.
Each ad impression generated from a user visit is auctioned in real time, where
demand-side platform (DSP) automatically provides bid price usually relying on
the ad impression value estimation and the optimal bid price determination.
However, the current bid strategy overlooks large randomness of the user
behaviors (e.g., click) and the cost uncertainty caused by the auction
competition. In this work, we explicitly factor in the uncertainty of estimated
ad impression values and model the risk preference of a DSP under a specific
state and market environment via a sequential decision process. Specifically,
we propose a novel adaptive risk-aware bidding algorithm with budget constraint
via reinforcement learning, which is the first to simultaneously consider
estimation uncertainty and the dynamic risk tendency of a DSP. We theoretically
unveil the intrinsic relation between the uncertainty and the risk tendency
based on value at risk (VaR). Consequently, we propose two instantiations to
model risk tendency, including an expert knowledge-based formulation embracing
three essential properties and an adaptive learning method based on
self-supervised reinforcement learning. We conduct extensive experiments on
public datasets and show that the proposed framework outperforms
state-of-the-art methods in practical settings.
- Abstract(参考訳): リアルタイム入札(RTB)はディスプレイ広告の主要なパラダイムとなっている。
ユーザ訪問から生成された各広告インプレッションをリアルタイムでオークションし、デマンド側プラットフォーム(DSP)は、通常広告インプレッション値推定と最適な入札価格決定に依存する自動入札価格を提供する。
しかし、現在の入札戦略は、ユーザ行動(例えばクリック)とオークション競争によるコストの不確実性の大きなランダム性を見落としている。
本研究では,推定広告インプレッション値の不確実性を明示的に考慮し,逐次決定プロセスを通じて,特定の状況や市場環境下でのdspのリスク嗜好をモデル化する。
具体的には、予測の不確実性とDSPの動的リスク傾向を同時に検討した最初の手法である強化学習による予算制約付き適応型リスク認識入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の関係を理論的に明らかにする。
そこで本研究では,3つの本質的特徴を包含する専門知識に基づく定式化と,自己指導型強化学習に基づく適応学習方法を含む,モデルリスク傾向に対する2つのインスタンス化を提案する。
我々は,公開データセットに関する広範な実験を行い,提案手法が実運用環境での最先端手法よりも優れていることを示す。
関連論文リスト
- Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - RAGIC: Risk-Aware Generative Adversarial Model for Stock Interval
Construction [4.059196561157555]
既存の予測アプローチの多くは、効果的な意思決定に必要な深さを欠いて、単一ポイントの予測に焦点を当てている。
本稿では,不確実性をより効果的に定量化するために,ストック間隔予測のためのシーケンス生成を導入するRAGICを提案する。
RAGICのジェネレータには、情報投資家のリスク認識をキャプチャするリスクモジュールと、歴史的価格動向と季節性を考慮した時間モジュールが含まれている。
論文 参考訳(メタデータ) (2024-02-16T15:34:07Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Risk-Aware Bid Optimization for Online Display Advertisement [9.255311854574915]
本研究は,オンライン広告のリアルタイム入札設定における入札最適化問題に焦点をあてる。
本稿では,広告主が期待する利益を最大化するリスク対応型データ駆動入札モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T02:14:33Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Deep Reinforcement Learning for Equal Risk Pricing and Hedging under
Dynamic Expectile Risk Measures [1.2891210250935146]
そこで本稿では,非政治的なアクター批判型深層強化学習アルゴリズムにより,オプションに対する高品質な時間一貫したヘッジポリシーを同定できることを示す。
簡単なバニラオプションとよりエキゾチックなバスケットオプションの両方を含む数値実験により, 単純環境, ほぼ最適なヘッジポリシ, 高精度な価格で, かつ, 多様な成熟度を同時に生成できることが確認された。
全体として、リスクを後回しに評価した場合に、静的リスク測定によって生成された戦略を実際に上回ります。
論文 参考訳(メタデータ) (2021-09-09T02:52:06Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。