Fugu-MT 論文翻訳(概要): Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce

論文の概要: Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce

arxiv url: http://arxiv.org/abs/2108.01440v1
Date: Fri, 30 Jul 2021 21:03:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-04 14:05:13.875059
Title: Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce
Title（参考訳）: マルチアームバンドアルゴリズムを用いたEコマースにおけるコンテンツ推薦の適応的最適化
Authors: Ding Xiang, Becky West, Jiaqi Wang, Xiquan Cui, Jinzhou Huang
Abstract要約: 我々は3つの古典的MABアルゴリズム、epsilon-greedy, Thompson sample (TS), and upper confidence bound 1 (UCB1) を用いて動的コンテンツの推薦を行う。 3つのMABアルゴリズムの累積報酬と、実際のA/Bテストデータセットを用いた1000以上の試行を比較する。電子商取引における遅延報酬問題を克服するために,バッチ更新MABアルゴリズムを開発した。
参考スコア（独自算出の注目度）: 4.143179903857126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: E-commerce sites strive to provide users the most timely relevant information in order to reduce shopping frictions and increase customer satisfaction. Multi armed bandit models (MAB) as a type of adaptive optimization algorithms provide possible approaches for such purposes. In this paper, we analyze using three classic MAB algorithms, epsilon-greedy, Thompson sampling (TS), and upper confidence bound 1 (UCB1) for dynamic content recommendations, and walk through the process of developing these algorithms internally to solve a real world e-commerce use case. First, we analyze the three MAB algorithms using simulated purchasing datasets with non-stationary reward distributions to simulate the possible time-varying customer preferences, where the traffic allocation dynamics and the accumulative rewards of different algorithms are studied. Second, we compare the accumulative rewards of the three MAB algorithms with more than 1,000 trials using actual historical A/B test datasets. We find that the larger difference between the success rates of competing recommendations the more accumulative rewards the MAB algorithms can achieve. In addition, we find that TS shows the highest average accumulative rewards under different testing scenarios. Third, we develop a batch-updated MAB algorithm to overcome the delayed reward issue in e-commerce and enable an online content optimization on our App homepage. For a state-of-the-art comparison, a real A/B test among our batch-updated MAB algorithm, a third-party MAB solution, and the default business logic are conducted. The result shows that our batch-updated MAB algorithm outperforms the counterparts and achieves 6.13% relative click-through rate (CTR) increase and 16.1% relative conversion rate (CVR) increase compared to the default experience, and 2.9% relative CTR increase and 1.4% relative CVR increase compared to the external MAB service.
Abstract（参考訳）: 電子商取引サイトは、買い物の摩擦を減らし、顧客満足度を高めるために、利用者に最もタイムリーな情報を提供することを目指している。適応最適化アルゴリズムの一種であるマルチ武装バンドモデル(MAB)は、そのような目的のために可能なアプローチを提供する。本稿では,3つの古典的MABアルゴリズム,epsilon-greedy,Thompson sample (TS),Upper confidence bound 1 (UCB1) を用いて動的コンテンツレコメンデーションを解析し,これらのアルゴリズムを内部で開発して実世界のeコマースユースケースを解決する。まず,非定常報酬分布を用いたシミュレーション購入データセットを用いて3つのmabアルゴリズムを解析し,トラヒック割り当てのダイナミクスとアルゴリズムの累積報酬について検討した。第2に、3つのMABアルゴリズムの累積報酬と、実際のA/Bテストデータセットを用いた1000以上の試行を比較する。競合するレコメンデーションの成功率の差が大きいほど、MABアルゴリズムはより累積的な報奨が得られることがわかった。さらに、TSは異なるテストシナリオ下での平均累積報酬が最も高いことを示している。第3に,eコマースにおける遅延報酬問題を克服し,アプリホームページ上でオンラインコンテンツの最適化を可能にするバッチ更新MABアルゴリズムを開発した。最先端比較では、バッチ更新MABアルゴリズム、サードパーティMABソリューション、デフォルトビジネスロジック間の実A/Bテストを行う。その結果、バッチ更新されたmabアルゴリズムは、外部mabサービスに比べて2.9%、相対クリックスルー率(ctr)が1.4%、相対変換率(cvr)が16.1%、さらに相対ctrが2.9%、相対cvrが1.4%増加した。

関連論文リスト

C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing [21.119495676190127]
Mixture-of-Experts (MoE) Large Language Models (LLMs) は、高度に最適化されたエキスパートパスに苦しむ。プレトレーニングから学んだナイーブな専門家選択は、改善のための驚くべき10～20%の精度ギャップを残します。テストサンプル毎に異なるレイヤのエキスパートを共同で再重み付けあるいは「再混合」するための新しいテスト時間最適化手法を開発する。
論文参考訳（メタデータ） (2025-04-10T17:59:56Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Streaming Looking Ahead with Token-level Self-reward [50.699168440048716]
本稿では,トークンレベルの自己回帰モデリング(TRM)機能を備えたポリシーモデルを提案する。さらに,検索効率を向上し,並列化を向上するストリーミング・ルック・アヘッド (SLA) アルゴリズムを提案する。 SLAとDPOなどの強化微調整技術を組み合わせると、全体の勝利率は89.4%となる。
論文参考訳（メタデータ） (2025-02-24T22:35:53Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文参考訳（メタデータ） (2024-11-20T18:06:55Z)
Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文参考訳（メタデータ） (2024-10-05T16:17:31Z)
Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-10-04T04:56:11Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するために、自動化され効率的な方法を必要としている。本稿ではまず,3つの純LLM手法を用いて,最もキャッチラインを識別する能力について検討する。 LLM-Assisted Online Learning Algorithm (LOLA) は,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-03T07:56:58Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文参考訳（メタデータ） (2022-01-17T04:50:11Z)
Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。 FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文参考訳（メタデータ） (2021-09-13T08:31:59Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。