論文の概要: End-to-End Cost-Effective Incentive Recommendation under Budget Constraint with Uplift Modeling
- arxiv url: http://arxiv.org/abs/2408.11623v1
- Date: Wed, 21 Aug 2024 13:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:47:35.177891
- Title: End-to-End Cost-Effective Incentive Recommendation under Budget Constraint with Uplift Modeling
- Title(参考訳): 昇降モデルによる予算制約下での費用対効果インセンティブレコメンデーションのエンド・ツー・エンド化
- Authors: Zexu Sun, Hao Yang an Dugang Liu, Yunpeng Weng, Xing Tang, Xiuqiang He,
- Abstract要約: 本稿では,予算制約下でのエンド・ツー・エンド・エンド・コスト・エフェクティブ・インセンティブ・レコメンデーション(E3IR)モデルを提案する。
具体的には、アップリフト予測モジュールと微分可能なアロケーションモジュールの2つのモジュールから構成される。
E3IRは既存の2段階アプローチに比べてアロケーション性能が向上する。
- 参考スコア(独自算出の注目度): 9.034827161936057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern online platforms, incentives are essential factors that enhance user engagement and increase platform revenue. Over recent years, uplift modeling has been introduced as a strategic approach to assign incentives to individual customers. Especially in many real-world applications, online platforms can only incentivize customers with specific budget constraints. This problem can be reformulated as the multi-choice knapsack problem. This optimization aims to select the optimal incentive for each customer to maximize the return on investment. Recent works in this field frequently tackle the budget allocation problem using a two-stage approach. However, this solution is confronted with the following challenges: (1) The causal inference methods often ignore the domain knowledge in online marketing, where the expected response curve of a customer should be monotonic and smooth as the incentive increases. (2) An optimality gap between the two stages results in inferior sub-optimal allocation performance due to the loss of the incentive recommendation information for the uplift prediction under the limited budget constraint. To address these challenges, we propose a novel End-to-End Cost-Effective Incentive Recommendation (E3IR) model under budget constraints. Specifically, our methods consist of two modules, i.e., the uplift prediction module and the differentiable allocation module. In the uplift prediction module, we construct prediction heads to capture the incremental improvement between adjacent treatments with the marketing domain constraints (i.e., monotonic and smooth). We incorporate integer linear programming (ILP) as a differentiable layer input in the allocation module. Furthermore, we conduct extensive experiments on public and real product datasets, demonstrating that our E3IR improves allocation performance compared to existing two-stage approaches.
- Abstract(参考訳): 現代のオンラインプラットフォームでは、インセンティブはユーザーエンゲージメントを高め、プラットフォーム収益を増加させる重要な要素である。
近年では、個々の顧客にインセンティブを割り当てる戦略的アプローチとして、アップリフトモデリングが導入されている。
特に現実世界のアプリケーションでは、オンラインプラットフォームは特定の予算制約で顧客にインセンティブを与えるだけである。
この問題は、マルチチョイス・クナプサック問題として再定義できる。
この最適化は、投資のリターンを最大化するために、各顧客に対して最適なインセンティブを選択することを目的としている。
この分野での最近の研究は、しばしば2段階のアプローチを用いて予算配分問題に取り組む。
因果推論手法は,顧客の期待する応答曲線がインセンティブが増大するにつれて単調でスムーズであるべきという,オンラインマーケティングにおけるドメイン知識を無視することが多い。
2) 2段階間の最適性差は, 限られた予算制約下での昇降予測のためのインセンティブ推奨情報の喪失により, 下位最適割当性能が低下する。
これらの課題に対処するため,予算制約下での新たなコスト・エフェクティブ・インセンティブ・レコメンデーション(E3IR)モデルを提案する。
具体的には、アップリフト予測モジュールと微分可能なアロケーションモジュールの2つのモジュールから構成される。
昇降予測モジュールでは、隣接処理とマーケティング領域の制約(モノトニックとスムーズ)との漸進的な改善を捉えるために予測ヘッドを構築する。
整数線形プログラミング(ILP)をアロケーションモジュール内の微分可能な層入力として組み込む。
さらに、我々は、公開および実際の製品データセットに関する広範な実験を行い、既存の2段階のアプローチと比較して、E3IRがアロケーション性能を改善することを実証した。
関連論文リスト
- Dynamic Pricing for Electric Vehicle Charging [6.1003048508889535]
複数の競合する目的に効率的に対処することで、動的価格問題に対する新しい定式化を開発する。
動的価格モデルは、複数の競合する目的を同時に解決しながら、需要と価格の関係を定量化する。
カリフォルニアの2つの充電サイトのリアルワールドデータが我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-08-26T10:32:21Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Model-based Constrained MDP for Budget Allocation in Sequential
Incentive Marketing [28.395877073390434]
逐次インセンティブマーケティングは、オンラインビジネスにとって顧客を獲得し、忠誠心を高め、売上を伸ばすための重要なアプローチである。
予算制約下でのリターンを最大化するインセンティブを効果的に割り当てる方法については、文献ではあまり研究されていない。
本稿では,2項探索とモデルベース計画を組み合わせた効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:10:45Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - An End-to-End Framework for Marketing Effectiveness Optimization under
Budget Constraint [25.89397524825504]
予算制約下でのビジネス目標を直接最適化する新しいエンドツーエンドフレームワークを提案する。
我々の中核となる考え方は、マーケティング目標を表現し、勾配推定技術を用いて効率的に最適化する正規化器を構築することである。
提案手法は現在,ショートビデオプラットフォーム上で数億人のユーザに対して,マーケティング予算を配分するためにデプロイされている。
論文 参考訳(メタデータ) (2023-02-09T07:39:34Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - The Best of Many Worlds: Dual Mirror Descent for Online Allocation
Problems [7.433931244705934]
本稿では,意思決定者に対して未知の入力モデルを用いて,各要求に対する報酬とリソース消費を生成するデータ駆動型設定について考察する。
様々な入力モデルにおいて,どの入力に直面するかを知ることなく,優れた性能が得られるアルゴリズムの一般クラスを設計する。
我々のアルゴリズムはラグランジアン双対空間で動作し、オンラインミラー降下を用いて更新される各リソースに対して双対乗算器を保持する。
論文 参考訳(メタデータ) (2020-11-18T18:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。