論文の概要: Learning Personalized Ad Impact via Contextual Reinforcement Learning under Delayed Rewards
- arxiv url: http://arxiv.org/abs/2510.20055v1
- Date: Wed, 22 Oct 2025 22:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.9263
- Title: Learning Personalized Ad Impact via Contextual Reinforcement Learning under Delayed Rewards
- Title(参考訳): 遅延リワード下での文脈強化学習によるパーソナライズされた広告効果の学習
- Authors: Yuwei Cheng, Zifeng Zhao, Haifeng Xu,
- Abstract要約: 広告入札をコンテキストマルコフ決定プロセス(CMDP)としてモデル化し,ポアソンの報酬を遅延させる。
効率的な推定法として,データ分割戦略と組み合わせた2段階の最大推定器を提案する。
我々は、効率的な個人化入札戦略を導出するための強化学習アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 36.029144318322686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online advertising platforms use automated auctions to connect advertisers with potential customers, requiring effective bidding strategies to maximize profits. Accurate ad impact estimation requires considering three key factors: delayed and long-term effects, cumulative ad impacts such as reinforcement or fatigue, and customer heterogeneity. However, these effects are often not jointly addressed in previous studies. To capture these factors, we model ad bidding as a Contextual Markov Decision Process (CMDP) with delayed Poisson rewards. For efficient estimation, we propose a two-stage maximum likelihood estimator combined with data-splitting strategies, ensuring controlled estimation error based on the first-stage estimator's (in)accuracy. Building on this, we design a reinforcement learning algorithm to derive efficient personalized bidding strategies. This approach achieves a near-optimal regret bound of $\tilde{O}{(dH^2\sqrt{T})}$, where $d$ is the contextual dimension, $H$ is the number of rounds, and $T$ is the number of customers. Our theoretical findings are validated by simulation experiments.
- Abstract(参考訳): オンライン広告プラットフォームは、広告主と潜在的な顧客を結びつけるために自動オークションを使用しており、利益を最大化するために効果的な入札戦略を必要としている。
正確な広告影響推定には、遅延と長期効果、強化や疲労などの累積的な広告影響、顧客不均一性の3つの重要な要因を考慮する必要がある。
しかしながら、これらの効果は以前の研究では共同で対処されないことが多い。
これらの要因を捉えるために、広告入札をコンテキストマルコフ決定プロセス(CMDP)としてモデル化し、ポアソンの報酬を遅延させる。
効率的な推定のために,データ分割戦略と組み合わせた2段階最大推定器を提案し,第1段階推定器の精度に基づいて制御された推定誤差を保証した。
これに基づいて、効率的な個別入札戦略を導出するための強化学習アルゴリズムを設計する。
このアプローチは$\tilde{O}{(dH^2\sqrt{T})}$のほぼ最適後悔境界を達成し、$d$は文脈次元、$H$はラウンドの数、$T$は顧客数である。
本研究はシミュレーション実験により検証した。
関連論文リスト
- Causal Inference under Threshold Manipulation: Bayesian Mixture Modeling and Heterogeneous Treatment Effects [0.25782420501870296]
しきい値操作下での因果効果を推定するための新しい枠組みを提案する。
主な考え方は、観測された消費分布を2つの分布の混合としてモデル化することである。
以上より,大試料下での因果効果の後方収縮が観察された。
論文 参考訳(メタデータ) (2025-09-24T06:52:53Z) - Learning Fair And Effective Points-Based Rewards Programs [4.465134753953128]
ポイントベースの報酬プログラムは、その実施における不公平な慣行の告発により精査されている。
ポイントベースの報酬プログラムを公平に設計する問題について検討し、その効果と公正性に反する2つの障害に着目した。
我々は、すべての顧客に対して同じ償還基準を使用する個人的公正報酬プログラムが、少なくとも1+ln 2$の損失を被っていることを示す。
本稿では,実験による点評価のリスクを制限する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-04T13:05:16Z) - Online Bidding under RoS Constraints without Knowing the Value [22.193658401789033]
オンライン広告における入札の問題は、広告主が予算や返品制限に固執しながら価値を最大化することを目的としている。
本稿では、このトレードオフを慎重に管理する新しいアッパー信頼境界(UCB)スタイルのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-05T05:25:54Z) - An Offline Learning Approach to Propagator Models [3.1755820123640612]
まず、静的データセットから未知の価格影響カーネルを推定するエージェントに対して、オフラインで学習する問題を考察する。
本稿では,価格トラジェクトリ,トレーディング信号,メタオーダーを含むデータセットからプロパゲータを非パラメトリックに推定する手法を提案する。
提案手法では,提案手法を純粋に活用することで,実行コストを最小化しようとするトレーダーが準最適に遭遇することを示す。
論文 参考訳(メタデータ) (2023-09-06T13:36:43Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - VFed-SSD: Towards Practical Vertical Federated Advertising [53.08038962443853]
本稿では,2つの制限を緩和する半教師付き分割蒸留フレームワーク VFed-SSD を提案する。
具体的には,垂直分割された未ラベルデータを利用する自己教師型タスクMatchedPair Detection (MPD) を開発する。
当社のフレームワークは,デプロイコストの最小化と大幅なパフォーマンス向上を図った,リアルタイム表示広告のための効率的なフェデレーション強化ソリューションを提供する。
論文 参考訳(メタデータ) (2022-05-31T17:45:30Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。