論文の概要: Stratified Expert Cloning for Retention-Aware Recommendation at Scale
- arxiv url: http://arxiv.org/abs/2504.05628v2
- Date: Thu, 11 Sep 2025 13:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 13:52:32.702498
- Title: Stratified Expert Cloning for Retention-Aware Recommendation at Scale
- Title(参考訳): 大規模リコメンデーションのためのストラテファイド・エキスパート・クローン
- Authors: Chengzhi Lin, Annan Xie, Shuchang Liu, Wuhong Wang, Chuyuan Wang, Yongqi Liu,
- Abstract要約: Stratified Expert Cloning (SEC)は、ハイリテンションユーザからの豊富なインタラクションデータを活用して、堅牢なポリシを学習する模倣学習フレームワークである。
SECは,1)多段階の専門家階層化による多様な保持行動のモデル化,2)状態と保持履歴に基づく適切なポリシーを動的にユーザとマッチングするための適応的専門家選択,3)勧告の多様性とポリシーの一般化を促進するためのアクションエントロピー規則化を包含する。
- 参考スコア(独自算出の注目度): 4.004268769229301
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: User retention is critical in large-scale recommender systems, significantly influencing online platforms' long-term success. Existing methods typically focus on short-term engagement, neglecting the evolving dynamics of user behaviors over time. Reinforcement learning (RL) methods, though promising for optimizing long-term rewards, face challenges like delayed credit assignment and sample inefficiency. We introduce Stratified Expert Cloning (SEC), an imitation learning framework that leverages abundant interaction data from high-retention users to learn robust policies. SEC incorporates: 1) multi-level expert stratification to model diverse retention behaviors; 2) adaptive expert selection to dynamically match users with appropriate policies based on their state and retention history; and 3) action entropy regularization to enhance recommendation diversity and policy generalization. Extensive offline evaluations and online A/B tests on major video platforms (Kuaishou and Kuaishou Lite) with hundreds of millions of users validate SEC's effectiveness. Results show substantial improvements, achieving cumulative lifts of 0.098 percent and 0.122 percent in active days on the two platforms respectively, each translating into over 200,000 additional daily active users.
- Abstract(参考訳): ユーザ保持は大規模なレコメンデーションシステムにおいて重要であり、オンラインプラットフォームの長期的な成功に大きな影響を及ぼす。
既存のメソッドは通常、短期的なエンゲージメントに注目し、時間の経過とともにユーザの振る舞いの進化するダイナミクスを無視します。
長期報酬の最適化を約束する強化学習(RL)手法は、遅延クレジット割り当てやサンプル非効率といった課題に直面している。
我々は,高保持ユーザからの豊富なインタラクションデータを活用して,堅牢なポリシを学習する模倣学習フレームワークであるStratified Expert Cloning(SEC)を紹介した。
SEC は次のように組み入れている。
1) 多様な保持行動のモデル化のための多段階の専門家層化
2 ユーザの状態及び保持履歴に基づく適切な方針を動的に整合させるための適応的専門家選択
3)レコメンデーションの多様性と政策の一般化を高めるためのアクションエントロピー規則化。
大規模なオフライン評価と主要なビデオプラットフォーム(KuaishouとKuaishou Lite)でのオンラインA/Bテストでは、数億人のユーザがSECの有効性を検証する。
その結果、2つのプラットフォームでそれぞれ0.0988%と0.122%の累積リフティングを達成し、それぞれ20万人以上のデイリーアクティブユーザに翻訳した。
関連論文リスト
- Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Multi-Objective Recommendation via Multivariate Policy Learning [10.494676556696213]
現実世界のレコメンデーションシステムは、ユーザに提示するレコメンデーションを決定する際に、複数の目的のバランスを取る必要があることが多い。
これには行動信号(クリック、共有、居住時間など)や、より広い目的(多様性、公平性など)が含まれる。
論文 参考訳(メタデータ) (2024-05-03T14:44:04Z) - Leave No One Behind: Online Self-Supervised Self-Distillation for Sequential Recommendation [20.52842524024608]
シーケンシャルレコメンデーション手法は、現代のレコメンデーションシステムにおいて重要な役割を担っている。
近年の手法では、コントラスト学習を利用して自己超越信号の導出を行っている。
そこで我々は,オンライン自己監督型自己蒸留(Online Self-Supervised Self-distillation for Sequential Recommendation)という新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-22T12:27:21Z) - UOEP: User-Oriented Exploration Policy for Enhancing Long-Term User Experiences in Recommender Systems [7.635117537731915]
強化学習(Reinforcement Learning, RL)は,レコメンデーションシステムにおけるユーザの長期体験向上の要因となっている。
現代のレコメンデータシステムは、何千万もの項目で異なるユーザ行動パターンを示しており、探索の難しさを高めている。
ユーザグループ間のきめ細かい探索を容易にする新しいアプローチであるユーザ指向探索ポリシー(UOEP)を提案する。
論文 参考訳(メタデータ) (2024-01-17T08:01:18Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Reinforcing User Retention in a Billion Scale Short Video Recommender
System [21.681785801465328]
短いビデオプラットフォームは、興味深いコンテンツをユーザーに推薦することで、急速にユーザー成長を遂げた。
この勧告の目的は、ユーザ保持の最適化であり、DAU(Daily Active Users)の成長を促進することである。
論文 参考訳(メタデータ) (2023-02-03T13:25:43Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Maximizing Cumulative User Engagement in Sequential Recommendation: An
Online Optimization Perspective [26.18096797120916]
ユーザエンゲージメントの向上とユーザブラウジングの促進という、潜在的に矛盾する2つの目標をトレードオフするためには、しばしば必要となる。
より長いユーザブラウジング期間と高いユーザエンゲージメントを明示的にトレードオフする,フレキシブルで実用的なフレームワークを提案する。
このアプローチは大規模なEコマースプラットフォームにデプロイされ、累積クリックの7%以上の改善が達成されている。
論文 参考訳(メタデータ) (2020-06-02T09:02:51Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。