論文の概要: BCRLSP: An Offline Reinforcement Learning Framework for Sequential
Targeted Promotion
- arxiv url: http://arxiv.org/abs/2207.07790v1
- Date: Sat, 16 Jul 2022 00:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:45:05.801121
- Title: BCRLSP: An Offline Reinforcement Learning Framework for Sequential
Targeted Promotion
- Title(参考訳): BCRLSP: 逐次目標推進のためのオフライン強化学習フレームワーク
- Authors: Fanglin Chen, Xiao Liu, Bo Tang, Feiyu Xiong, Serim Hwang, and Guomian
Zhuang
- Abstract要約: 本稿では,利用者に送付される現金ボーナスの価値を決定するために,予算制約付き逐次促進学習フレームワークを提案する。
BCRLSPは, 長期顧客維持率が高く, 各種ベースラインよりも低コストであることを示す。
- 参考スコア(独自算出の注目度): 8.499811428928071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We utilize an offline reinforcement learning (RL) model for sequential
targeted promotion in the presence of budget constraints in a real-world
business environment. In our application, the mobile app aims to boost customer
retention by sending cash bonuses to customers and control the costs of such
cash bonuses during each time period. To achieve the multi-task goal, we
propose the Budget Constrained Reinforcement Learning for Sequential Promotion
(BCRLSP) framework to determine the value of cash bonuses to be sent to users.
We first find out the target policy and the associated Q-values that maximizes
the user retention rate using an RL model. A linear programming (LP) model is
then added to satisfy the constraints of promotion costs. We solve the LP
problem by maximizing the Q-values of actions learned from the RL model given
the budget constraints. During deployment, we combine the offline RL model with
the LP model to generate a robust policy under the budget constraints. Using
both online and offline experiments, we demonstrate the efficacy of our
approach by showing that BCRLSP achieves a higher long-term customer retention
rate and a lower cost than various baselines. Taking advantage of the near
real-time cost control method, the proposed framework can easily adapt to data
with a noisy behavioral policy and/or meet flexible budget constraints.
- Abstract(参考訳): 実世界のビジネス環境における予算制約が存在する場合、オフライン強化学習(RL)モデルを逐次的目標推進に活用する。
本アプリケーションでは,顧客に対して現金ボーナスを送付し,一定期間の現金ボーナスのコストを制御することにより,顧客の維持を促進することを目的としている。
マルチタスク目標を達成するため,BCRLSP(Budget Constrained Reinforcement Learning for Sequential promotion)フレームワークを提案する。
まず、RLモデルを用いてユーザ保持率を最大化するターゲットポリシーと関連するQ値を明らかにする。
次に、プロモーションコストの制約を満たすために線形プログラミング(LP)モデルを追加する。
予算制約を考慮したRLモデルから得られた行動のQ-値の最大化によりLP問題を解く。
デプロイ中に、オフラインのRLモデルとLPモデルを組み合わせて、予算制約の下で堅牢なポリシーを生成します。
オンラインとオフラインの両方の実験を用いて、bclspが様々なベースラインよりも高い長期顧客保持率と低いコストを達成することを示すことにより、このアプローチの有効性を実証する。
提案手法は, ほぼリアルタイムなコスト制御手法を生かして, ノイズの多い行動ポリシーや, 柔軟な予算制約を満たしたデータに容易に適応できる。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning [57.154674117714265]
本稿では,FQI-log を用いた準最適政策の学習に必要なサンプル数と,最適政策の累積コストについて述べる。
我々は,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
論文 参考訳(メタデータ) (2024-03-08T15:30:58Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。