論文の概要: Model-based Constrained MDP for Budget Allocation in Sequential
Incentive Marketing
- arxiv url: http://arxiv.org/abs/2303.01049v1
- Date: Thu, 2 Mar 2023 08:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:35:34.636214
- Title: Model-based Constrained MDP for Budget Allocation in Sequential
Incentive Marketing
- Title(参考訳): 逐次インセンティブマーケティングにおける予算配分のためのモデルベース制約型MDP
- Authors: Shuai Xiao, Le Guo, Zaifan Jiang, Lei Lv, Yuanbo Chen, Jun Zhu, Shuang
Yang
- Abstract要約: 逐次インセンティブマーケティングは、オンラインビジネスにとって顧客を獲得し、忠誠心を高め、売上を伸ばすための重要なアプローチである。
予算制約下でのリターンを最大化するインセンティブを効果的に割り当てる方法については、文献ではあまり研究されていない。
本稿では,2項探索とモデルベース計画を組み合わせた効率的な学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.395877073390434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential incentive marketing is an important approach for online businesses
to acquire customers, increase loyalty and boost sales. How to effectively
allocate the incentives so as to maximize the return (e.g., business
objectives) under the budget constraint, however, is less studied in the
literature. This problem is technically challenging due to the facts that 1)
the allocation strategy has to be learned using historically logged data, which
is counterfactual in nature, and 2) both the optimality and feasibility (i.e.,
that cost cannot exceed budget) needs to be assessed before being deployed to
online systems. In this paper, we formulate the problem as a constrained Markov
decision process (CMDP). To solve the CMDP problem with logged counterfactual
data, we propose an efficient learning algorithm which combines bisection
search and model-based planning. First, the CMDP is converted into its dual
using Lagrangian relaxation, which is proved to be monotonic with respect to
the dual variable. Furthermore, we show that the dual problem can be solved by
policy learning, with the optimal dual variable being found efficiently via
bisection search (i.e., by taking advantage of the monotonicity). Lastly, we
show that model-based planing can be used to effectively accelerate the joint
optimization process without retraining the policy for every dual variable.
Empirical results on synthetic and real marketing datasets confirm the
effectiveness of our methods.
- Abstract(参考訳): 逐次インセンティブマーケティングは、オンラインビジネスにとって顧客を獲得し、忠誠心を高め、販売を促進する重要なアプローチである。
しかし、予算制約下での利益(ビジネス目的など)を最大化するために、効果的にインセンティブを割り当てる方法は、文献では研究されていない。
この問題は事実のため技術的に難しい。
1) 歴史的にログ化されたデータを用いて, 割り当て戦略を学ばなければならない。
2) 最適性と実現可能性(すなわち、予算を超えるコスト)は、オンラインシステムに展開する前に評価する必要がある。
本稿では,この問題を制約付きマルコフ決定過程(cmdp)として定式化する。
ログ付き反事実データを用いたcmdp問題を解決するために,二分探索とモデルに基づく計画を組み合わせた効率的な学習アルゴリズムを提案する。
まず、CMDPはラグランジュ緩和を用いて双対に変換され、これは双対変数に対して単調であることが証明される。
さらに,双対問題は,二分探索(すなわち単調性を利用して)により,最適双対変数を効率的に発見することで,ポリシー学習によって解くことができることを示した。
最後に,双対変数のポリシを再トレーニングすることなく,協調最適化プロセスを効果的に加速するためにモデルベースプランニングが有効であることを示す。
合成および実際のマーケティングデータセットの実証結果から,本手法の有効性が確認された。
関連論文リスト
- Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - End-to-End Cost-Effective Incentive Recommendation under Budget Constraint with Uplift Modeling [12.160403526724476]
本稿では,予算制約下でのエンド・ツー・エンド・エンド・コスト・エフェクティブ・インセンティブ・レコメンデーション(E3IR)モデルを提案する。
具体的には、アップリフト予測モジュールと微分可能なアロケーションモジュールの2つのモジュールから構成される。
E3IRは既存の2段階アプローチに比べてアロケーション性能が向上する。
論文 参考訳(メタデータ) (2024-08-21T13:48:00Z) - Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization [21.304040539486184]
決定集中学習(DFL)は機械学習(ML)と最適化をエンドツーエンドフレームワークに統合する。
しかし、DFLをマーケティングに展開するのは、複数の技術的課題のために簡単ではない。
本稿では,直接対物マーケティングのための意思決定型因果学習フレームワーク(DFCL)を提案する。
論文 参考訳(メタデータ) (2024-07-18T16:39:44Z) - On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach [7.996010840316654]
本稿では,Large Language Models (LLMs) を用いた不確実性低減フレームワークを提案する。
LLMは、先進的な言語能力と、広範なデータサイエンスの専門知識を持たない人々に対して大きな利点をもたらす「従量制」モデルに便乗している。
我々は,本手法が効率的かつ効果的であることを示し,実世界のタスクに有望な応用を提供する。
論文 参考訳(メタデータ) (2024-01-07T09:06:58Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Direct Heterogeneous Causal Learning for Resource Allocation Problems in
Marketing [20.9377115817821]
マーケティングは、ユーザのエンゲージメントを高め、プラットフォーム収益を改善するための重要なメカニズムである。
マーケティングにおける意思決定問題は資源配分問題として定式化され、数十年にわたって研究されてきた。
既存の作業は通常、解法を2つの完全に分離された段階、すなわち機械学習(ML)と操作研究(OR)に分割する。
論文 参考訳(メタデータ) (2022-11-28T19:27:34Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。