論文の概要: Adversarial Learning for Incentive Optimization in Mobile Payment
Marketing
- arxiv url: http://arxiv.org/abs/2112.15434v1
- Date: Tue, 28 Dec 2021 07:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-09 14:49:36.421827
- Title: Adversarial Learning for Incentive Optimization in Mobile Payment
Marketing
- Title(参考訳): モバイル決済マーケティングにおけるインセンティブ最適化のためのadversarial learning
- Authors: Xuanying Chen, Zhining Liu, Li Yu, Sen Li, Lihong Gu, Xiaodong Zeng,
Yize Tan and Jinjie Gu
- Abstract要約: 支払いプラットフォームは、ユーザーがアプリケーションを通じて支払いを奨励するインセンティブを割り当てる大規模なマーケティングキャンペーンを開催している。
投資のリターンを最大化するために、インセンティブアロケーションは2段階の手順で一般的に解決される。
本稿では,この障害を克服するためのバイアス補正対向ネットワークを提案する。
- 参考スコア(独自算出の注目度): 17.645000197183045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many payment platforms hold large-scale marketing campaigns, which allocate
incentives to encourage users to pay through their applications. To maximize
the return on investment, incentive allocations are commonly solved in a
two-stage procedure. After training a response estimation model to estimate the
users' mobile payment probabilities (MPP), a linear programming process is
applied to obtain the optimal incentive allocation. However, the large amount
of biased data in the training set, generated by the previous biased allocation
policy, causes a biased estimation. This bias deteriorates the performance of
the response model and misleads the linear programming process, dramatically
degrading the performance of the resulting allocation policy. To overcome this
obstacle, we propose a bias correction adversarial network. Our method
leverages the small set of unbiased data obtained under a full-randomized
allocation policy to train an unbiased model and then uses it to reduce the
bias with adversarial learning. Offline and online experimental results
demonstrate that our method outperforms state-of-the-art approaches and
significantly improves the performance of the resulting allocation policy in a
real-world marketing campaign.
- Abstract(参考訳): 多くの支払いプラットフォームは、ユーザーがアプリケーションを通じて支払いを奨励するインセンティブを割り当てる大規模なマーケティングキャンペーンを開催している。
投資のリターンを最大化するために、インセンティブアロケーションは2段階の手順で一般的に解決される。
ユーザのモバイル支払確率(MPP)を推定するために応答推定モデルをトレーニングした後、最適なインセンティブ割り当てを得るために線形プログラミングプロセスを適用する。
しかし、以前の偏り割り当てポリシーによって生成されたトレーニングセット内の大量の偏りデータが、偏り推定を引き起こす。
このバイアスは応答モデルの性能を低下させ、線形プログラミングプロセスを誤解させ、結果として生じる割り当てポリシーのパフォーマンスを劇的に低下させる。
この障害を克服するため,我々はバイアス補正逆ネットワークを提案する。
本手法は,完全ランダム割当ポリシーで得られた未偏りデータの小さなセットを活用して偏りのないモデルを訓練し,それを用いて逆学習による偏りを低減する。
オフラインおよびオンライン実験の結果,本手法は最先端のアプローチを上回っており,実世界のマーケティングキャンペーンにおけるアロケーション・ポリシーの性能が著しく向上することが示された。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Metalearners for Ranking Treatment Effects [1.469168639465869]
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T15:31:18Z) - OptiGrad: A Fair and more Efficient Price Elasticity Optimization via a Gradient Based Learning [7.145413681946911]
本稿では,非生命保険市場の利益率を勾配降下法により最適化する新しい手法を提案する。
1)利益マージンの最大化、2)転換率の確保、3)人口比率(DP)などの公正基準の実施の3つの主要な目標を目標としている。
論文 参考訳(メタデータ) (2024-04-16T04:21:59Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Boosting Offline Reinforcement Learning with Action Preference Query [32.94932149345299]
実践的エージェントの訓練は通常、政策のパフォーマンスと相互作用コストのバランスをとるために、オフラインおよびオンライン強化学習(RL)を含む。
オンラインファインチューニングは、オフライントレーニングフェーズで学習したアウト・オブ・ディストリビューションデータの誤った推定を補正するために一般的に用いられている方法となっている。
本研究では,Offline-with-Action-Preferences (OAP) と呼ばれるインタラクションフリーのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-06T02:29:40Z) - Towards Equal Opportunity Fairness through Adversarial Learning [64.45845091719002]
逆行訓練は、自然言語処理におけるバイアス緩和の一般的なアプローチである。
本稿では、よりリッチな特徴を生み出すために、ターゲットクラスをインプットとして利用する、対位訓練のための拡張判別器を提案する。
論文 参考訳(メタデータ) (2022-03-12T02:22:58Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。