論文の概要: DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation
- arxiv url: http://arxiv.org/abs/2406.06433v2
- Date: Tue, 11 Jun 2024 08:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 10:07:31.133132
- Title: DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation
- Title(参考訳): DISCO:パーソナライズド・ディスカウント・アロケーションのためのエンド・ツー・エンド・エンド・バンド・フレームワーク
- Authors: Jason Shuo Zhang, Benjamin Howson, Panayiota Savva, Eleanor Loh,
- Abstract要約: DISCOは、ASOSのパーソナライズされたディスカウントコードアロケーションのためのエンドツーエンドのコンテキストラジットフレームワークである。
従来のトンプソンサンプリングアルゴリズムを整数プログラムに統合することで適応する。
グローバルな制約にもかかわらず、探索を効果的に実施し、時間とともにパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalised discount codes provide a powerful mechanism for managing customer relationships and operational spend in e-commerce. Bandits are well suited for this product area, given the partial information nature of the problem, as well as the need for adaptation to the changing business environment. Here, we introduce DISCO, an end-to-end contextual bandit framework for personalised discount code allocation at ASOS. DISCO adapts the traditional Thompson Sampling algorithm by integrating it within an integer program, thereby allowing for operational cost control. Because bandit learning is often worse with high dimensional actions, we focused on building low dimensional action and context representations that were nonetheless capable of good accuracy. Additionally, we sought to build a model that preserved the relationship between price and sales, in which customers increasing their purchasing in response to lower prices ("negative price elasticity"). These aims were achieved by using radial basis functions to represent the continuous (i.e. infinite armed) action space, in combination with context embeddings extracted from a neural network. These feature representations were used within a Thompson Sampling framework to facilitate exploration, and further integrated with an integer program to allocate discount codes across ASOS's customer base. These modelling decisions result in a reward model that (a) enables pooled learning across similar actions, (b) is highly accurate, including in extrapolation, and (c) preserves the expected negative price elasticity. Through offline analysis, we show that DISCO is able to effectively enact exploration and improves its performance over time, despite the global constraint. Finally, we subjected DISCO to a rigorous online A/B test, and find that it achieves a significant improvement of >1% in average basket value, relative to the legacy systems.
- Abstract(参考訳): パーソナライズされた割引コードは、Eコマースにおける顧客関係と運用費用を管理するための強力なメカニズムを提供する。
帯域幅は、問題の部分的な情報の性質と変化するビジネス環境への適応の必要性から、この製品領域に適している。
本稿では,ASOSにおけるパーソナライズされたディスカウントコードアロケーションのための,エンド・ツー・エンドのコンテキスト・バンディット・フレームワークであるdisCOを紹介する。
DISCOは従来のトンプソンサンプリングアルゴリズムを整数プログラムに統合し、運用コストの制御を可能にする。
バンディット学習は高次元の動作で悪くなることが多いため、我々は低次元の動作と文脈表現の構築に焦点をあてた。
さらに、価格と販売の関係を保存し、価格の低下(「価格弾力性」)に応じて顧客が購入を増加させるモデルの構築も検討した。
これらの目的は、ニューラルネットワークから抽出されたコンテキスト埋め込みと組み合わせて、連続的な(無限武装の)アクション空間を表現するために放射基底関数を使用することによって達成された。
これらの特徴表現は、探究を容易にするためにトンプソンサンプリングフレームワーク内で使われ、さらに整数プログラムと統合されてASOSの顧客ベース全体で割引コードを割り当てた。
これらのモデル決定は、報酬モデルをもたらす。
(a)類似の行動にまたがるプール学習を可能にする。
(b)外挿を含む高精度で、かつ、
(c)期待される負の価格弾性を保存する。
オフライン解析により、グローバルな制約にもかかわらず、DisCOは探索を効果的に実行し、時間とともにその性能を向上させることができることを示す。
最後に,disCOを厳格なオンラインA/Bテストに適用し,従来のシステムと比較して,平均バスケット値が1%に向上したことを確認した。
関連論文リスト
- A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Self-Localized Collaborative Perception [49.86110931859302]
我々は,新しい自己局在型協調認識システムであるMathttCoBEVGlue$を提案する。
$mathttCoBEVGlue$は、エージェント間の相対的なポーズを提供する新しい空間アライメントモジュールである。
$mathttCoBEVGlue$は任意のローカライゼーションノイズとアタックの下で最先端の検出性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T15:26:54Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Adaptive importance sampling for heavy-tailed distributions via
$\alpha$-divergence minimization [2.879807093604632]
提案手法は,学生の提案分布からターゲットを近似するAISアルゴリズムを提案する。
我々は、目標と提案の護衛モーメントを一致させて、位置とスケールパラメータを適応させる。
これらの更新は、ターゲットと提案の間の$alpha$-divergenceを最小化し、変動推論と接続する。
論文 参考訳(メタデータ) (2023-10-25T14:07:08Z) - An Optimistic-Robust Approach for Dynamic Positioning of Omnichannel
Inventories [10.353243563465124]
我々は,データ駆動型楽観的二元性在庫最適化(BIO)戦略を新たに導入する。
我々の実験は、在庫管理に対する従来のアプローチを再考することで、大きな利益が得られることを示している。
論文 参考訳(メタデータ) (2023-10-17T23:10:57Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Lottery Aware Sparsity Hunting: Enabling Federated Learning on
Resource-Limited Edge [17.256563339072546]
textitfederated lottery aware sparsity Hunt (FLASH)は、スパースサブモデルのトレーニングのための統一されたスパース学習フレームワークである。
FLASHは、比例通信の利点を得ながら、超低パラメータ密度で性能を維持する。
論文 参考訳(メタデータ) (2022-08-27T21:51:09Z) - AdaSplit: Adaptive Trade-offs for Resource-constrained Distributed Deep
Learning [18.3841463794885]
Split Learning (SL)は、クライアントとサーバの間でモデルのトレーニングを分割することで、クライアントの計算負荷を削減する。
AdaSplitは、帯域幅の削減と異種クライアント間のパフォーマンス向上により、SLをリソースの少ないシナリオに効率的にスケーリングすることを可能にする。
論文 参考訳(メタデータ) (2021-12-02T23:33:15Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Momentum Contrastive Autoencoder: Using Contrastive Learning for Latent
Space Distribution Matching in WAE [51.09507030387935]
Wasserstein autoencoder (WAE) は、2つの分布が一致することは、このAEの潜在空間が予め指定された事前分布と一致するという制約の下で、単純なオートエンコーダ(AE)損失を最小限にすることと同値であることを示している。
本稿では,この問題を解決する手段として,自己指導型表現学習に有効であることを示すコントラスト学習フレームワークを提案する。
WAEの損失を最適化するために、対照的な学習フレームワークを使用することで、WAEの一般的なアルゴリズムと比較して、より高速に収束し、より安定した最適化が達成できることを示す。
論文 参考訳(メタデータ) (2021-10-19T22:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。