論文の概要: Adaptively Optimize Content Recommendation Using Multi Armed Bandit
Algorithms in E-commerce
- arxiv url: http://arxiv.org/abs/2108.01440v1
- Date: Fri, 30 Jul 2021 21:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 14:05:13.875059
- Title: Adaptively Optimize Content Recommendation Using Multi Armed Bandit
Algorithms in E-commerce
- Title(参考訳): マルチアームバンドアルゴリズムを用いたEコマースにおけるコンテンツ推薦の適応的最適化
- Authors: Ding Xiang, Becky West, Jiaqi Wang, Xiquan Cui, Jinzhou Huang
- Abstract要約: 我々は3つの古典的MABアルゴリズム、epsilon-greedy, Thompson sample (TS), and upper confidence bound 1 (UCB1) を用いて動的コンテンツの推薦を行う。
3つのMABアルゴリズムの累積報酬と、実際のA/Bテストデータセットを用いた1000以上の試行を比較する。
電子商取引における遅延報酬問題を克服するために,バッチ更新MABアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 4.143179903857126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce sites strive to provide users the most timely relevant information
in order to reduce shopping frictions and increase customer satisfaction. Multi
armed bandit models (MAB) as a type of adaptive optimization algorithms provide
possible approaches for such purposes. In this paper, we analyze using three
classic MAB algorithms, epsilon-greedy, Thompson sampling (TS), and upper
confidence bound 1 (UCB1) for dynamic content recommendations, and walk through
the process of developing these algorithms internally to solve a real world
e-commerce use case. First, we analyze the three MAB algorithms using simulated
purchasing datasets with non-stationary reward distributions to simulate the
possible time-varying customer preferences, where the traffic allocation
dynamics and the accumulative rewards of different algorithms are studied.
Second, we compare the accumulative rewards of the three MAB algorithms with
more than 1,000 trials using actual historical A/B test datasets. We find that
the larger difference between the success rates of competing recommendations
the more accumulative rewards the MAB algorithms can achieve. In addition, we
find that TS shows the highest average accumulative rewards under different
testing scenarios. Third, we develop a batch-updated MAB algorithm to overcome
the delayed reward issue in e-commerce and enable an online content
optimization on our App homepage. For a state-of-the-art comparison, a real A/B
test among our batch-updated MAB algorithm, a third-party MAB solution, and the
default business logic are conducted. The result shows that our batch-updated
MAB algorithm outperforms the counterparts and achieves 6.13% relative
click-through rate (CTR) increase and 16.1% relative conversion rate (CVR)
increase compared to the default experience, and 2.9% relative CTR increase and
1.4% relative CVR increase compared to the external MAB service.
- Abstract(参考訳): 電子商取引サイトは、買い物の摩擦を減らし、顧客満足度を高めるために、利用者に最もタイムリーな情報を提供することを目指している。
適応最適化アルゴリズムの一種であるマルチ武装バンドモデル(MAB)は、そのような目的のために可能なアプローチを提供する。
本稿では,3つの古典的MABアルゴリズム,epsilon-greedy,Thompson sample (TS),Upper confidence bound 1 (UCB1) を用いて動的コンテンツレコメンデーションを解析し,これらのアルゴリズムを内部で開発して実世界のeコマースユースケースを解決する。
まず,非定常報酬分布を用いたシミュレーション購入データセットを用いて3つのmabアルゴリズムを解析し,トラヒック割り当てのダイナミクスとアルゴリズムの累積報酬について検討した。
第2に、3つのMABアルゴリズムの累積報酬と、実際のA/Bテストデータセットを用いた1000以上の試行を比較する。
競合するレコメンデーションの成功率の差が大きいほど、MABアルゴリズムはより累積的な報奨が得られることがわかった。
さらに、TSは異なるテストシナリオ下での平均累積報酬が最も高いことを示している。
第3に,eコマースにおける遅延報酬問題を克服し,アプリホームページ上でオンラインコンテンツの最適化を可能にするバッチ更新MABアルゴリズムを開発した。
最先端比較では、バッチ更新MABアルゴリズム、サードパーティMABソリューション、デフォルトビジネスロジック間の実A/Bテストを行う。
その結果、バッチ更新されたmabアルゴリズムは、外部mabサービスに比べて2.9%、相対クリックスルー率(ctr)が1.4%、相対変換率(cvr)が16.1%、さらに相対ctrが2.9%、相対cvrが1.4%増加した。
関連論文リスト
- LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
本稿では,コンテンツ配信を最適化する LLM-Assisted Online Learning Algorithm (LOLA) を提案する。
まず, プロンプトベース手法, 埋め込み型分類モデル, 微調整型オープンソースLCMの3つのアプローチについて検討する。
次に,最適純粋LLM手法とアッパー信頼境界アルゴリズムを組み合わせたLOLAを導入し,トラフィックを適応的に割り当て,クリックを最大化する。
論文 参考訳(メタデータ) (2024-06-03T07:56:58Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。
本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。
提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-01-17T04:50:11Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - An Extensive Experimental Evaluation of Automated Machine Learning
Methods for Recommending Classification Algorithms (Extended Version) [4.400989370979334]
これら3つの手法は進化的アルゴリズム(EA)に基づいており、もう1つはAuto-WEKAである。
我々は,これらの4つのAutoMLメソッドに,この制限の異なる値に対して,同じランタイム制限を付与する制御実験を行った。
一般に,3つの最良のAutoML手法の予測精度の差は統計的に有意ではなかった。
論文 参考訳(メタデータ) (2020-09-16T02:36:43Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。