論文の概要: Reinforcement Learning to Optimize Lifetime Value in Cold-Start
Recommendation
- arxiv url: http://arxiv.org/abs/2108.09141v1
- Date: Fri, 20 Aug 2021 12:26:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:34:42.962101
- Title: Reinforcement Learning to Optimize Lifetime Value in Cold-Start
Recommendation
- Title(参考訳): コールドスタートレコメンデーションにおけるライフタイム値最適化のための強化学習
- Authors: Luo Ji and Qin Qi and Bingqing Han and Hongxia Yang
- Abstract要約: 本稿では,レコメンデーションに商品寿命値(LTV)を組み込むためのアクタクリティカルなRLフレームワーク(RL-LTV)を提案する。
コールドスタート項目のITV, GMVにおいて, 相対的に8.67%, 18.03%向上した。
- 参考スコア(独自算出の注目度): 29.817934858028615
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recommender system plays a crucial role in modern E-commerce platform. Due to
the lack of historical interactions between users and items, cold-start
recommendation is a challenging problem. In order to alleviate the cold-start
issue, most existing methods introduce content and contextual information as
the auxiliary information. Nevertheless, these methods assume the recommended
items behave steadily over time, while in a typical E-commerce scenario, items
generally have very different performances throughout their life period. In
such a situation, it would be beneficial to consider the long-term return from
the item perspective, which is usually ignored in conventional methods.
Reinforcement learning (RL) naturally fits such a long-term optimization
problem, in which the recommender could identify high potential items,
proactively allocate more user impressions to boost their growth, therefore
improve the multi-period cumulative gains. Inspired by this idea, we model the
process as a Partially Observable and Controllable Markov Decision Process
(POC-MDP), and propose an actor-critic RL framework (RL-LTV) to incorporate the
item lifetime values (LTV) into the recommendation. In RL-LTV, the critic
studies historical trajectories of items and predict the future LTV of fresh
item, while the actor suggests a score-based policy which maximizes the future
LTV expectation. Scores suggested by the actor are then combined with classical
ranking scores in a dual-rank framework, therefore the recommendation is
balanced with the LTV consideration. Our method outperforms the strong live
baseline with a relative improvement of 8.67% and 18.03% on IPV and GMV of
cold-start items, on one of the largest E-commerce platform.
- Abstract(参考訳): 現代のEコマースプラットフォームにおいて、レコメンダシステムは重要な役割を果たす。
ユーザーとアイテム間の歴史的相互作用が欠如しているため、コールドスタート推奨は難しい問題である。
コールドスタート問題を軽減するため、既存の手法では補助情報としてコンテンツや文脈情報を導入している。
しかしながら、これらの手法は推奨項目が時間とともに着実に振る舞うと仮定する一方で、典型的なEコマースのシナリオでは、一般的にその期間を通して非常に異なるパフォーマンスを持つ。
このような場合、通常従来の方法では無視される項目の観点から長期的なリターンを考えることは有益である。
強化学習 (Reinforcement Learning, RL) はこのような長期最適化問題に自然に適合し, 推薦者が高い潜在的な項目を識別し, ユーザインプレッションを積極的に割り当てて成長を促進させ, 多周期累積ゲインを改善する。
このアイデアにインスパイアされたプロセスは、部分観測可能かつ制御可能なマルコフ決定プロセス(POC-MDP)としてモデル化され、アイテム寿命値(LTV)を推奨に組み込むアクタークリティカルなRLフレームワーク(RL-LTV)が提案される。
RL-LTVにおいて、批評家はアイテムの歴史的軌跡を研究し、新鮮なアイテムの将来のLTVを予測する一方、アクターは将来のLTV期待を最大化するスコアベースのポリシーを提案する。
アクターが提案するスコアは、古典的なランキングスコアとデュアルランクのフレームワークで組み合わせられるため、レコメンデーションはLTVの考慮とバランスがとれる。
本手法は,最大規模のEコマースプラットフォームであるITVとGMVの相対的な改善率8.67%と18.03%で,強力なライブベースラインを上回っている。
関連論文リスト
- Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation [2.3166433227657186]
本稿では,時計時間全体の条件分布をモデル化するための条件量子推定(CQE)フレームワークを提案する。
CQEは、ユーザとビデオのペアごとに複雑なウォッチタイム分布を特徴付け、ユーザの振る舞いを理解するための柔軟で包括的なアプローチを提供する。
特に、KuaiShowにおけるCQEのオンライン展開は、主要な評価指標を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-17T00:25:35Z) - A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大規模言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の4.13%が大幅に向上した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z) - Capturing Popularity Trends: A Simplistic Non-Personalized Approach for
Enhanced Item Recommendation [10.606845291519932]
Popularity-Aware Recommender (PARE) は、最も人気の高いアイテムを予測することで、非個人化されたレコメンデーションを行う。
私たちの知る限り、レコメンデーションシステムでアイテムの人気を明示的にモデル化する最初の試みである。
論文 参考訳(メタデータ) (2023-08-17T06:20:03Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z) - CAViaR: Context Aware Video Recommendations [0.0]
本稿では,低多様性が個々の項目に対するユーザのエンゲージメントに与える影響をモデル化し,多様性を導入する手法を提案する。
提案手法は,既存の大規模レコメンデータシステムに簡単にプラグインできるように設計されている。
論文 参考訳(メタデータ) (2023-04-17T16:56:23Z) - Deep Interest Highlight Network for Click-Through Rate Prediction in
Trigger-Induced Recommendation [15.490873353133363]
本稿では,トリガー誘導レコメンデーション(TIR, Trigger-induced Recommendation)という新たなレコメンデーション問題を提案する。
そこで本研究では,クリックスルーレート(CTR)予測のための,DIHN(Deep Interest Highlight Network)と呼ばれる新しい推奨手法を提案する。
1)ユーザインテントネットワーク(UIN)、2)トリガーアイテムに対するユーザの意図を正確に予測するための正確な確率スコアを生成する、2)統合埋め込みモジュール(FEM)、そして、UINからの予測に基づいてトリガーアイテムとターゲットアイテムの埋め込みを適応的に融合する、3)。
論文 参考訳(メタデータ) (2022-02-05T08:40:30Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Personalized Embedding-based e-Commerce Recommendations at eBay [3.1236273633321416]
電子商取引市場において,同じベクトル空間にアイテムやユーザを埋め込むことで,パーソナライズされたアイテムレコメンデーションを生成するアプローチを提案する。
データアブレーションは、生産システムの堅牢性を改善するために、オフラインモデルのトレーニングプロセスに組み込まれます。
論文 参考訳(メタデータ) (2021-02-11T17:58:51Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。