論文の概要: Marketing Budget Allocation with Offline Constrained Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2309.02669v1
- Date: Wed, 6 Sep 2023 02:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 17:06:58.066113
- Title: Marketing Budget Allocation with Offline Constrained Deep Reinforcement
Learning
- Title(参考訳): オフライン制約付き深層強化学習によるマーケティング予算配分
- Authors: Tianchi Cai, Jiyan Jiang, Wenpeng Zhang, Shiji Zhou, Xierui Song, Li
Yu, Lihong Gu, Xiaodong Zeng, Jinjie Gu, Guannan Zhang
- Abstract要約: 以前収集したオフラインデータを利用したオンラインマーケティングキャンペーンにおける予算配分問題について検討する。
混合ポリシーを用いた新しいゲーム理論のオフライン値に基づく強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 22.993339296954545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the budget allocation problem in online marketing campaigns that
utilize previously collected offline data. We first discuss the long-term
effect of optimizing marketing budget allocation decisions in the offline
setting. To overcome the challenge, we propose a novel game-theoretic offline
value-based reinforcement learning method using mixed policies. The proposed
method reduces the need to store infinitely many policies in previous methods
to only constantly many policies, which achieves nearly optimal policy
efficiency, making it practical and favorable for industrial usage. We further
show that this method is guaranteed to converge to the optimal policy, which
cannot be achieved by previous value-based reinforcement learning methods for
marketing budget allocation. Our experiments on a large-scale marketing
campaign with tens-of-millions users and more than one billion budget verify
the theoretical results and show that the proposed method outperforms various
baseline methods. The proposed method has been successfully deployed to serve
all the traffic of this marketing campaign.
- Abstract(参考訳): 以前収集したオフラインデータを利用したオンラインマーケティングキャンペーンにおける予算配分問題について検討する。
まず,オフライン環境でのマーケティング予算配分決定の最適化による長期的効果について考察する。
この課題を克服するために,混合ポリシーを用いた新しいゲーム理論的オフライン価値ベース強化学習手法を提案する。
提案手法は, 従来手法では無限に多くのポリシーを格納する必要性を減らし, 常に多くのポリシーしか保存せず, ほぼ最適な政策効率を実現し, 産業利用に有効である。
さらに, この手法は, マーケティング予算配分のための既往の価値ベース強化学習手法では達成できない最適方針に収束することが保証されている。
我々は,数千万人のユーザと10億以上の予算を持つ大規模マーケティングキャンペーンにおける実験により,提案手法が様々なベースライン手法を上回っていることを示す。
提案手法は,このマーケティングキャンペーンの全トラフィックに対して有効に展開されている。
関連論文リスト
- Metalearners for Ranking Treatment Effects [1.469168639465869]
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T15:31:18Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - An End-to-End Framework for Marketing Effectiveness Optimization under
Budget Constraint [25.89397524825504]
予算制約下でのビジネス目標を直接最適化する新しいエンドツーエンドフレームワークを提案する。
我々の中核となる考え方は、マーケティング目標を表現し、勾配推定技術を用いて効率的に最適化する正規化器を構築することである。
提案手法は現在,ショートビデオプラットフォーム上で数億人のユーザに対して,マーケティング予算を配分するためにデプロイされている。
論文 参考訳(メタデータ) (2023-02-09T07:39:34Z) - A Profit-Maximizing Strategy for Advertising on the e-Commerce Platforms [1.565361244756411]
提案手法は,対象のオーディエンスを実際の購入者へ変換する確率を最大化するために,最適な機能セットを見つけることを目的としている。
提案手法が予算制約で広告戦略を効果的に最適化できることを示すため,Tmall の現実データを用いた実証的研究を行った。
論文 参考訳(メタデータ) (2022-10-31T01:45:42Z) - Adversarial Learning for Incentive Optimization in Mobile Payment
Marketing [17.645000197183045]
支払いプラットフォームは、ユーザーがアプリケーションを通じて支払いを奨励するインセンティブを割り当てる大規模なマーケティングキャンペーンを開催している。
投資のリターンを最大化するために、インセンティブアロケーションは2段階の手順で一般的に解決される。
本稿では,この障害を克服するためのバイアス補正対向ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-28T07:54:39Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential
Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。
理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。
強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文 参考訳(メタデータ) (2020-06-29T18:50:35Z) - Heterogeneous Causal Learning for Effectiveness Optimization in User
Marketing [2.752817022620644]
本稿では,ユーザマーケティングのための処理効果最適化手法を提案する。
このアルゴリズムは過去の実験から学習し、ユーザ選択に対するコスト効率の最適化に新しい最適化手法を利用する。
提案手法は,先行技術およびベースライン法において,最良性能の手法と比較して24.6%性能が向上した。
論文 参考訳(メタデータ) (2020-04-21T01:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。