論文の概要: Stratified Expert Cloning with Adaptive Selection for User Retention in Large-Scale Recommender Systems
- arxiv url: http://arxiv.org/abs/2504.05628v1
- Date: Tue, 08 Apr 2025 03:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:04.397019
- Title: Stratified Expert Cloning with Adaptive Selection for User Retention in Large-Scale Recommender Systems
- Title(参考訳): 大規模レコメンダシステムにおけるユーザ保持のための適応的選択を用いた階層型エキスパートクローン
- Authors: Chengzhi Lin, Annan Xie, Shuchang Liu, Wuhong Wang, Chuyuan Wang, Yongqi Liu,
- Abstract要約: Stratified Expert Cloning (SEC)は、記録されたデータを効果的に活用して堅牢なレコメンデーションポリシーを学ぶ、新しい模倣学習フレームワークである。
SECは、3つの重要なイノベーションを紹介している。1) 専門家のユーザ行動のニュアンスを異なる保持レベルで捉えるマルチレベルの専門家階層化戦略、2) ユーザを現在の状態と歴史的保持レベルに基づいて最も適切なポリシーに動的に割り当てる適応的専門家選択メカニズム、3) 勧告の多様性を促進し、ポリシー崩壊のリスクを軽減するアクションエントロピー正規化技術。
- 参考スコア(独自算出の注目度): 2.0378554336804013
- License:
- Abstract: User retention has emerged as a critical challenge in large-scale recommender systems, significantly impacting the long-term success of online platforms. Existing methods often focus on short-term engagement metrics, failing to capture the complex dynamics of user preferences and behaviors over extended periods. While reinforcement learning (RL) approaches have shown promise in optimizing long-term rewards, they face difficulties in credit assignment, sample efficiency, and exploration when applied to the user retention problem. In this work, we propose Stratified Expert Cloning (SEC), a novel imitation learning framework that effectively leverages abundant logged data from high-retention users to learn robust recommendation policies. SEC introduces three key innovations: 1) a multi-level expert stratification strategy that captures the nuances in expert user behaviors at different retention levels; 2) an adaptive expert selection mechanism that dynamically assigns users to the most suitable policy based on their current state and historical retention level; and 3) an action entropy regularization technique that promotes recommendation diversity and mitigates the risk of policy collapse. Through extensive offline experiments and online A/B tests on two major video platforms, Kuaishou and Kuaishou Lite, with hundreds of millions of daily active users, we demonstrate SEC's significant improvements over state-of-the-art methods in user retention. The results demonstrate significant improvements in user retention, with cumulative lifts of 0.098\% and 0.122\% in active days on Kuaishou and Kuaishou Lite respectively, additionally bringing tens of thousands of daily active users to each platform.
- Abstract(参考訳): 大規模なレコメンデーションシステムにおいて、ユーザ保持は重要な課題として現れており、オンラインプラットフォームの長期的な成功に大きな影響を与えている。
既存の方法は、しばしば短期的なエンゲージメントのメトリクスに焦点を合わせ、長い期間にわたってユーザの好みや振る舞いの複雑なダイナミクスを捉えなかった。
強化学習(RL)アプローチは、長期報酬を最適化する上で有望であるが、ユーザ保持問題に適用した場合、クレジット割り当て、サンプル効率、探索の困難に直面している。
本研究では,高い保持率を持つユーザからの豊富なログデータを効果的に活用し,堅牢なレコメンデーションポリシを学習する,新しい模倣学習フレームワークであるStratified Expert Cloning(SEC)を提案する。
SECは3つの重要なイノベーションを紹介している。
1) 異なる保持レベルでのユーザ行動のニュアンスを捉えた多段階の専門家階層化戦略
2 利用者の現況及び履歴保持レベルに基づいて、利用者に最適な政策を動的に割り当てる適応的専門家選定機構
3)レコメンデーションの多様性を促進し,政策崩壊のリスクを軽減するアクションエントロピー正規化手法。
大規模なオフライン実験と、2つの主要なビデオプラットフォーム上でのオンラインA/Bテスト(KuaishouとKuaishou Lite)を通じて、毎日数億人のアクティブユーザーがいる。
その結果, Kuaishou と Kuaishou Lite でそれぞれ 0.098\% と 0.122\% の累積リフティングを行い,各プラットフォームに数万のデイリーアクティブユーザをもたらした。
関連論文リスト
- Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Multi-Objective Recommendation via Multivariate Policy Learning [10.494676556696213]
現実世界のレコメンデーションシステムは、ユーザに提示するレコメンデーションを決定する際に、複数の目的のバランスを取る必要があることが多い。
これには行動信号(クリック、共有、居住時間など)や、より広い目的(多様性、公平性など)が含まれる。
論文 参考訳(メタデータ) (2024-05-03T14:44:04Z) - Leave No One Behind: Online Self-Supervised Self-Distillation for Sequential Recommendation [20.52842524024608]
シーケンシャルレコメンデーション手法は、現代のレコメンデーションシステムにおいて重要な役割を担っている。
近年の手法では、コントラスト学習を利用して自己超越信号の導出を行っている。
そこで我々は,オンライン自己監督型自己蒸留(Online Self-Supervised Self-distillation for Sequential Recommendation)という新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-22T12:27:21Z) - UOEP: User-Oriented Exploration Policy for Enhancing Long-Term User Experiences in Recommender Systems [7.635117537731915]
強化学習(Reinforcement Learning, RL)は,レコメンデーションシステムにおけるユーザの長期体験向上の要因となっている。
現代のレコメンデータシステムは、何千万もの項目で異なるユーザ行動パターンを示しており、探索の難しさを高めている。
ユーザグループ間のきめ細かい探索を容易にする新しいアプローチであるユーザ指向探索ポリシー(UOEP)を提案する。
論文 参考訳(メタデータ) (2024-01-17T08:01:18Z) - Reinforcing User Retention in a Billion Scale Short Video Recommender
System [21.681785801465328]
短いビデオプラットフォームは、興味深いコンテンツをユーザーに推薦することで、急速にユーザー成長を遂げた。
この勧告の目的は、ユーザ保持の最適化であり、DAU(Daily Active Users)の成長を促進することである。
論文 参考訳(メタデータ) (2023-02-03T13:25:43Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Maximizing Cumulative User Engagement in Sequential Recommendation: An
Online Optimization Perspective [26.18096797120916]
ユーザエンゲージメントの向上とユーザブラウジングの促進という、潜在的に矛盾する2つの目標をトレードオフするためには、しばしば必要となる。
より長いユーザブラウジング期間と高いユーザエンゲージメントを明示的にトレードオフする,フレキシブルで実用的なフレームワークを提案する。
このアプローチは大規模なEコマースプラットフォームにデプロイされ、累積クリックの7%以上の改善が達成されている。
論文 参考訳(メタデータ) (2020-06-02T09:02:51Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。