論文の概要: Multi-Task Fusion via Reinforcement Learning for Long-Term User
Satisfaction in Recommender Systems
- arxiv url: http://arxiv.org/abs/2208.04560v1
- Date: Tue, 9 Aug 2022 06:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:57:08.368612
- Title: Multi-Task Fusion via Reinforcement Learning for Long-Term User
Satisfaction in Recommender Systems
- Title(参考訳): レコメンダシステムにおける長期ユーザ満足のための強化学習によるマルチタスクフュージョン
- Authors: Qihua Zhang, Junning Liu, Yuzhuo Dai, Yiyan Qi, Yifan Yuan, Kunlun
Zheng, Fan Huang, Xianfeng Tan
- Abstract要約: バッチ強化学習に基づくマルチタスク融合フレームワーク(BatchRL-MTF)を提案する。
我々は、長期ユーザー満足のために、固定バッチデータから最適なレコメンデーションポリシーをオフラインで学習する。
ユーザの行動に関する包括的調査により,ユーザの定着度とユーザ活動性の2つの側面から,ユーザ満足度報酬を微妙にモデル化する。
- 参考スコア(独自算出の注目度): 3.4394890850129007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender System (RS) is an important online application that affects
billions of users every day. The mainstream RS ranking framework is composed of
two parts: a Multi-Task Learning model (MTL) that predicts various user
feedback, i.e., clicks, likes, sharings, and a Multi-Task Fusion model (MTF)
that combines the multi-task outputs into one final ranking score with respect
to user satisfaction. There has not been much research on the fusion model
while it has great impact on the final recommendation as the last crucial
process of the ranking. To optimize long-term user satisfaction rather than
obtain instant returns greedily, we formulate MTF task as Markov Decision
Process (MDP) within a recommendation session and propose a Batch Reinforcement
Learning (RL) based Multi-Task Fusion framework (BatchRL-MTF) that includes a
Batch RL framework and an online exploration. The former exploits Batch RL to
learn an optimal recommendation policy from the fixed batch data offline for
long-term user satisfaction, while the latter explores potential high-value
actions online to break through the local optimal dilemma. With a comprehensive
investigation on user behaviors, we model the user satisfaction reward with
subtle heuristics from two aspects of user stickiness and user activeness.
Finally, we conduct extensive experiments on a billion-sample level real-world
dataset to show the effectiveness of our model. We propose a conservative
offline policy estimator (Conservative-OPEstimator) to test our model offline.
Furthermore, we take online experiments in a real recommendation environment to
compare performance of different models. As one of few Batch RL researches
applied in MTF task successfully, our model has also been deployed on a
large-scale industrial short video platform, serving hundreds of millions of
users.
- Abstract(参考訳): recommender system(rs)は、毎日数十億のユーザーに影響を与える重要なオンラインアプリケーションである。
メインストリームのRSランキングフレームワークは、様々なユーザフィードバックを予測するMTL(Multi-Task Learning Model)と、マルチタスク出力をユーザ満足度に関する最終的なランキングスコアに組み合わせたMTF(Multi-Task Fusion Model)の2つの部分で構成されている。
融合モデルに関する多くの研究は行われていないが、最終勧告はランキングの最終決定的なプロセスとして大きな影響を与えている。
本稿では,MTFタスクを推薦セッションにおいてマルコフ決定プロセス(MDP)として定式化し,バッチRLフレームワークとオンライン探索を含むバッチ強化学習(RL)ベースのマルチタスクフュージョンフレームワーク(BatchRL-MTF)を提案する。
前者はBatch RLを利用して、長期ユーザー満足のためにオフラインで固定バッチデータから最適なレコメンデーションポリシーを学習し、後者はオンラインの高価値アクションを探索して、ローカルの最適ジレンマを突破する。
ユーザの行動に関する包括的調査により,ユーザ定着性とユーザ活動性の2つの側面から,ユーザ満足度報酬を微妙なヒューリスティックでモデル化する。
最後に、モデルの有効性を示すために、数十億サンプルレベルの実世界のデータセットを広範囲に実験する。
オフラインでモデルをテストするための保守的オフラインポリシー推定器(Conservative-OPEstimator)を提案する。
さらに,異なるモデルの性能を比較するために,オンライン実験を実際のレコメンデーション環境で実施する。
MTFタスクに適用された数少ないバッチRL研究の1つとして、当社のモデルは大規模産業用ショートビデオプラットフォームにもデプロイされ、数億人のユーザにサービスを提供しています。
関連論文リスト
- An Enhanced-State Reinforcement Learning Algorithm for Multi-Task Fusion in Large-Scale Recommender Systems [12.277443583840963]
Recommender Systems(RS)におけるマルチタスク融合(MTF)のための拡張状態RLと呼ばれる新しい手法を提案する。
提案手法はまず,ユーザの特徴,項目の特徴,その他の重要な特徴を拡張状態として集合的に定義し,さらに,ユーザとイズムのペアに対してより優れたアクションを実現するために,拡張状態を活用する新しいアクタと批判的学習プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-18T03:34:31Z) - An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems [19.443149691831856]
Multi-Task Fusion (MTF) は、Multi-Task Learning (MTL) が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化する。
近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。
本稿では,大規模RSにおいてMSF用にカスタマイズされたIntegratedRL-MTFを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:03Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of
Tasks with Multi-dimensional Relations [10.326429525379181]
本研究は,共有学習ネットワーク設計の「マクロ」視点を考察し,多面階層型MTLモデル(MFH)を提案する。
MFHは、共有学習を最大化するネスト付き階層木構造と多次元タスク関係を利用する。
我々はMFHとSOTAモデルを100億サンプルの大規模ビデオプラットフォームで評価し、その結果、MFHは、オフラインおよびオンライン両方の評価において、SOTA MTLモデルよりも有意に優れていることを示した。
論文 参考訳(メタデータ) (2021-10-26T02:35:51Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Deep Latent Emotion Network for Multi-Task Learning [3.211310973369844]
本稿では,フィードを好むユーザの潜伏確率を抽出するディープ潜伏感情ネットワーク(DLEN)モデルを提案する。
DLENはTencent QQ-Small-Worldの実際のマルチタスクフィードレコメンデーションシナリオにデプロイされ、データセットには10億以上のサンプルが含まれている。
オフライン評価ではSOTA MTLモデルよりも大きなパフォーマンスアドバンテージを示し、ビューカウントでは3.2%、本番環境では2.63%と大幅に増加している。
論文 参考訳(メタデータ) (2021-04-18T04:55:13Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。
我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。
私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文 参考訳(メタデータ) (2020-05-19T10:18:43Z) - RNE: A Scalable Network Embedding for Billion-scale Recommendation [21.6366085346674]
データ効率のよいレコメンデーションベースのネットワーク埋め込み手法であるRNEを提案し、ユーザに対してパーソナライズされた多様なアイテムを提供する。
一方,提案手法は,ユーザの関心の多様性と動的特性をモデル化し,推薦品質を高めるとともに,ユーザとアイテム間の局所的な構造を維持できる。
当社は、中国最大のEコマースプラットフォームであるTaobaoのレコメンデーションシナリオにRNEをデプロイし、それを10億規模のユーザテムグラフでトレーニングしています。
論文 参考訳(メタデータ) (2020-03-10T07:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。