論文の概要: DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation
- arxiv url: http://arxiv.org/abs/2406.06433v3
- Date: Wed, 12 Jun 2024 21:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 11:35:08.679365
- Title: DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation
- Title(参考訳): DISCO:パーソナライズド・ディスカウント・アロケーションのためのエンド・ツー・エンド・エンド・バンド・フレームワーク
- Authors: Jason Shuo Zhang, Benjamin Howson, Panayiota Savva, Eleanor Loh,
- Abstract要約: DISCOは、ASOSのパーソナライズされたディスカウントコードアロケーションのためのエンドツーエンドのコンテキストラジットフレームワークである。
従来のトンプソンサンプリングアルゴリズムを整数プログラムに統合することで適応する。
グローバルな制約にもかかわらず、探索を効果的に実施し、時間とともにパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalised discount codes provide a powerful mechanism for managing customer relationships and operational spend in e-commerce. Bandits are well suited for this product area, given the partial information nature of the problem, as well as the need for adaptation to the changing business environment. Here, we introduce DISCO, an end-to-end contextual bandit framework for personalised discount code allocation at ASOS. DISCO adapts the traditional Thompson Sampling algorithm by integrating it within an integer program, thereby allowing for operational cost control. Because bandit learning is often worse with high dimensional actions, we focused on building low dimensional action and context representations that were nonetheless capable of good accuracy. Additionally, we sought to build a model that preserved the relationship between price and sales, in which customers increasing their purchasing in response to lower prices ("negative price elasticity"). These aims were achieved by using radial basis functions to represent the continuous (i.e. infinite armed) action space, in combination with context embeddings extracted from a neural network. These feature representations were used within a Thompson Sampling framework to facilitate exploration, and further integrated with an integer program to allocate discount codes across ASOS's customer base. These modelling decisions result in a reward model that (a) enables pooled learning across similar actions, (b) is highly accurate, including in extrapolation, and (c) preserves the expected negative price elasticity. Through offline analysis, we show that DISCO is able to effectively enact exploration and improves its performance over time, despite the global constraint. Finally, we subjected DISCO to a rigorous online A/B test, and find that it achieves a significant improvement of >1% in average basket value, relative to the legacy systems.
- Abstract(参考訳): パーソナライズされた割引コードは、Eコマースにおける顧客関係と運用費用を管理するための強力なメカニズムを提供する。
帯域幅は、問題の部分的な情報の性質と変化するビジネス環境への適応の必要性から、この製品領域に適している。
本稿では,ASOSにおけるパーソナライズされたディスカウントコードアロケーションのための,エンド・ツー・エンドのコンテキスト・バンディット・フレームワークであるdisCOを紹介する。
DISCOは従来のトンプソンサンプリングアルゴリズムを整数プログラムに統合し、運用コストの制御を可能にする。
バンディット学習は高次元の動作で悪くなることが多いため、我々は低次元の動作と文脈表現の構築に焦点をあてた。
さらに、価格と販売の関係を保存し、価格の低下(「価格弾力性」)に応じて顧客が購入を増加させるモデルの構築も検討した。
これらの目的は、ニューラルネットワークから抽出されたコンテキスト埋め込みと組み合わせて、連続的な(無限武装の)アクション空間を表現するために放射基底関数を使用することによって達成された。
これらの特徴表現は、探究を容易にするためにトンプソンサンプリングフレームワーク内で使われ、さらに整数プログラムと統合されてASOSの顧客ベース全体で割引コードを割り当てた。
これらのモデル決定は、報酬モデルをもたらす。
(a)類似の行動にまたがるプール学習を可能にする。
(b)外挿を含む高精度で、かつ、
(c)期待される負の価格弾性を保存する。
オフライン解析により、グローバルな制約にもかかわらず、DisCOは探索を効果的に実行し、時間とともにその性能を向上させることができることを示す。
最後に,disCOを厳格なオンラインA/Bテストに適用し,従来のシステムと比較して,平均バスケット値が1%に向上したことを確認した。
関連論文リスト
- Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - An Optimistic-Robust Approach for Dynamic Positioning of Omnichannel
Inventories [10.353243563465124]
我々は,データ駆動型楽観的二元性在庫最適化(BIO)戦略を新たに導入する。
我々の実験は、在庫管理に対する従来のアプローチを再考することで、大きな利益が得られることを示している。
論文 参考訳(メタデータ) (2023-10-17T23:10:57Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Multitask Learning and Bandits via Robust Statistics [3.103098467546532]
意思決定者は、しばしば多くの関連するが不均一な学習問題に直面している。
本稿では,この構造をサンプル効率良く活用する2段階マルチタスク学習推定器を提案する。
我々の推定器は、一般的な失業推定器と比較して、特徴次元$d$のサンプル複雑性境界を改善した。
論文 参考訳(メタデータ) (2021-12-28T17:37:08Z) - AdaSplit: Adaptive Trade-offs for Resource-constrained Distributed Deep
Learning [18.3841463794885]
Split Learning (SL)は、クライアントとサーバの間でモデルのトレーニングを分割することで、クライアントの計算負荷を削減する。
AdaSplitは、帯域幅の削減と異種クライアント間のパフォーマンス向上により、SLをリソースの少ないシナリオに効率的にスケーリングすることを可能にする。
論文 参考訳(メタデータ) (2021-12-02T23:33:15Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Momentum Contrastive Autoencoder: Using Contrastive Learning for Latent
Space Distribution Matching in WAE [51.09507030387935]
Wasserstein autoencoder (WAE) は、2つの分布が一致することは、このAEの潜在空間が予め指定された事前分布と一致するという制約の下で、単純なオートエンコーダ(AE)損失を最小限にすることと同値であることを示している。
本稿では,この問題を解決する手段として,自己指導型表現学習に有効であることを示すコントラスト学習フレームワークを提案する。
WAEの損失を最適化するために、対照的な学習フレームワークを使用することで、WAEの一般的なアルゴリズムと比較して、より高速に収束し、より安定した最適化が達成できることを示す。
論文 参考訳(メタデータ) (2021-10-19T22:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。