論文の概要: Adaptively Optimize Content Recommendation Using Multi Armed Bandit
Algorithms in E-commerce
- arxiv url: http://arxiv.org/abs/2108.01440v1
- Date: Fri, 30 Jul 2021 21:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 14:05:13.875059
- Title: Adaptively Optimize Content Recommendation Using Multi Armed Bandit
Algorithms in E-commerce
- Title(参考訳): マルチアームバンドアルゴリズムを用いたEコマースにおけるコンテンツ推薦の適応的最適化
- Authors: Ding Xiang, Becky West, Jiaqi Wang, Xiquan Cui, Jinzhou Huang
- Abstract要約: 我々は3つの古典的MABアルゴリズム、epsilon-greedy, Thompson sample (TS), and upper confidence bound 1 (UCB1) を用いて動的コンテンツの推薦を行う。
3つのMABアルゴリズムの累積報酬と、実際のA/Bテストデータセットを用いた1000以上の試行を比較する。
電子商取引における遅延報酬問題を克服するために,バッチ更新MABアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 4.143179903857126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce sites strive to provide users the most timely relevant information
in order to reduce shopping frictions and increase customer satisfaction. Multi
armed bandit models (MAB) as a type of adaptive optimization algorithms provide
possible approaches for such purposes. In this paper, we analyze using three
classic MAB algorithms, epsilon-greedy, Thompson sampling (TS), and upper
confidence bound 1 (UCB1) for dynamic content recommendations, and walk through
the process of developing these algorithms internally to solve a real world
e-commerce use case. First, we analyze the three MAB algorithms using simulated
purchasing datasets with non-stationary reward distributions to simulate the
possible time-varying customer preferences, where the traffic allocation
dynamics and the accumulative rewards of different algorithms are studied.
Second, we compare the accumulative rewards of the three MAB algorithms with
more than 1,000 trials using actual historical A/B test datasets. We find that
the larger difference between the success rates of competing recommendations
the more accumulative rewards the MAB algorithms can achieve. In addition, we
find that TS shows the highest average accumulative rewards under different
testing scenarios. Third, we develop a batch-updated MAB algorithm to overcome
the delayed reward issue in e-commerce and enable an online content
optimization on our App homepage. For a state-of-the-art comparison, a real A/B
test among our batch-updated MAB algorithm, a third-party MAB solution, and the
default business logic are conducted. The result shows that our batch-updated
MAB algorithm outperforms the counterparts and achieves 6.13% relative
click-through rate (CTR) increase and 16.1% relative conversion rate (CVR)
increase compared to the default experience, and 2.9% relative CTR increase and
1.4% relative CVR increase compared to the external MAB service.
- Abstract(参考訳): 電子商取引サイトは、買い物の摩擦を減らし、顧客満足度を高めるために、利用者に最もタイムリーな情報を提供することを目指している。
適応最適化アルゴリズムの一種であるマルチ武装バンドモデル(MAB)は、そのような目的のために可能なアプローチを提供する。
本稿では,3つの古典的MABアルゴリズム,epsilon-greedy,Thompson sample (TS),Upper confidence bound 1 (UCB1) を用いて動的コンテンツレコメンデーションを解析し,これらのアルゴリズムを内部で開発して実世界のeコマースユースケースを解決する。
まず,非定常報酬分布を用いたシミュレーション購入データセットを用いて3つのmabアルゴリズムを解析し,トラヒック割り当てのダイナミクスとアルゴリズムの累積報酬について検討した。
第2に、3つのMABアルゴリズムの累積報酬と、実際のA/Bテストデータセットを用いた1000以上の試行を比較する。
競合するレコメンデーションの成功率の差が大きいほど、MABアルゴリズムはより累積的な報奨が得られることがわかった。
さらに、TSは異なるテストシナリオ下での平均累積報酬が最も高いことを示している。
第3に,eコマースにおける遅延報酬問題を克服し,アプリホームページ上でオンラインコンテンツの最適化を可能にするバッチ更新MABアルゴリズムを開発した。
最先端比較では、バッチ更新MABアルゴリズム、サードパーティMABソリューション、デフォルトビジネスロジック間の実A/Bテストを行う。
その結果、バッチ更新されたmabアルゴリズムは、外部mabサービスに比べて2.9%、相対クリックスルー率(ctr)が1.4%、相対変換率(cvr)が16.1%、さらに相対ctrが2.9%、相対cvrが1.4%増加した。
関連論文リスト
- Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するために、自動化され効率的な方法を必要としている。
本稿ではまず,3つの純LLM手法を用いて,最もキャッチラインを識別する能力について検討する。
LLM-Assisted Online Learning Algorithm (LOLA) は,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-03T07:56:58Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。
本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。
提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-01-17T04:50:11Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。