論文の概要: ROI Constrained Bidding via Curriculum-Guided Bayesian Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.05240v1
- Date: Fri, 10 Jun 2022 17:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 16:35:41.289513
- Title: ROI Constrained Bidding via Curriculum-Guided Bayesian Reinforcement
Learning
- Title(参考訳): カリキュラム誘導ベイズ強化学習によるroi制約付き入札
- Authors: Haozhe Wang, Chao Du, Panyan Fang, Shuo Yuan, Xuming He, Liang Wang,
Bo Zheng
- Abstract要約: 非定常市場におけるROI制約入札を専門とする。
部分観測可能な制約付きマルコフ決定プロセスに基づいて,非単調な制約を満たすための最初のハードバリアソリューションを提案する。
本手法は,パラメータフリーなインジケータ強化報酬関数を利用して,カリキュラムガイドベイズ強化学習フレームワークを開発する。
- 参考スコア(独自算出の注目度): 34.82004227655201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-Time Bidding (RTB) is an important mechanism in modern online
advertising systems. Advertisers employ bidding strategies in RTB to optimize
their advertising effects subject to various financial requirements, among
which a widely adopted one is the return-on-investment (ROI) constraint. ROIs
change non-monotonically during the sequential bidding process, usually
presenting a see-saw effect between constraint satisfaction and objective
optimization. Existing solutions to the constraint-objective trade-off are
typically established in static or mildly changing markets. However, these
methods fail significantly in non-stationary advertising markets due to their
inability to adapt to varying dynamics and partial observability. In this work,
we specialize in ROI-Constrained Bidding in non-stationary markets. Based on a
Partially Observable Constrained Markov Decision Process, we propose the first
hard barrier solution to accommodate non-monotonic constraints. Our method
exploits a parameter-free indicator-augmented reward function and develops a
Curriculum-Guided Bayesian Reinforcement Learning (CBRL) framework to
adaptively control the constraint-objective trade-off in non-stationary
advertising markets. Extensive experiments on a large-scale industrial dataset
with two problem settings reveal that CBRL generalizes well in both
in-distribution and out-of-distribution data regimes, and enjoys outstanding
stability.
- Abstract(参考訳): リアルタイム入札(RTB)は、現代のオンライン広告システムにおいて重要なメカニズムである。
広告主はRTBの入札戦略を採用して、様々な財務要件に照らされた広告効果を最適化し、その中でも広く採用されているのがROI(Return-on-investment)の制約である。
ROIは、シーケンシャル入札プロセス中に単調に変化し、通常、制約満足度と客観的最適化の間のシーソー効果を示す。
制約対象のトレードオフに対する既存のソリューションは通常、静的または穏やかに変化する市場で確立されます。
しかし、これらの手法は、変動するダイナミクスや部分的可観測性に適応できないため、非定常広告市場では著しく失敗する。
本研究では,非定常市場におけるROI制約入札を専門とする。
部分観測可能な制約付きマルコフ決定過程に基づいて,非単調制約に対応するための最初のハードバリアソリューションを提案する。
提案手法は,パラメータフリーな指標拡張報酬関数を利用して,非定常広告市場における制約対象トレードオフを適応的に制御するカリキュラムガイドベイズ強化学習(CBRL)フレームワークを開発する。
2つの問題設定を持つ大規模産業データセットの大規模な実験により、CBRLは分布内および分布外の両方のデータレギュレーションにおいてよく一般化され、優れた安定性を享受することが明らかとなった。
関連論文リスト
- Improve ROI with Causal Learning and Conformal Prediction [8.430828492374072]
本研究は,各種産業におけるコスト対応二元処理割り当て問題(C-B)について考察する。
最先端の直接ROI予測(TAP)手法に焦点を当てている。
これらの課題に対処することは、さまざまな運用状況における信頼性と堅牢な予測を保証するために不可欠である。
論文 参考訳(メタデータ) (2024-07-01T08:16:25Z) - Deep Hedging with Market Impact [0.20482269513546458]
本稿では,Deep Reinforcement Learning(DRL)に基づく新しい市場インパクト動的ヘッジモデルを提案する。
DRLモデルから得られた最適ポリシーは、いくつかのオプションヘッジシミュレーションを用いて分析され、デルタヘッジのような一般的な手順と比較される。
論文 参考訳(メタデータ) (2024-02-20T19:08:24Z) - Insurance pricing on price comparison websites via reinforcement
learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-14T04:44:56Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising [47.14651340748015]
本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
論文 参考訳(メタデータ) (2022-12-06T18:50:09Z) - VFed-SSD: Towards Practical Vertical Federated Advertising [53.08038962443853]
本稿では,2つの制限を緩和する半教師付き分割蒸留フレームワーク VFed-SSD を提案する。
具体的には,垂直分割された未ラベルデータを利用する自己教師型タスクMatchedPair Detection (MPD) を開発する。
当社のフレームワークは,デプロイコストの最小化と大幅なパフォーマンス向上を図った,リアルタイム表示広告のための効率的なフェデレーション強化ソリューションを提供する。
論文 参考訳(メタデータ) (2022-05-31T17:45:30Z) - Demand Responsive Dynamic Pricing Framework for Prosumer Dominated
Microgrids using Multiagent Reinforcement Learning [59.28219519916883]
本稿では,実時間価格(RTP)DR技術を実装したマルチエージェント強化学習に基づく意思決定環境を提案する。
提案手法は,従来のDR法に共通するいくつかの欠点に対処し,グリッド演算子とプロシューマーに大きな経済的利益をもたらす。
論文 参考訳(メタデータ) (2020-09-23T01:44:57Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。