論文の概要: A Model-based Multi-Agent Personalized Short-Video Recommender System
- arxiv url: http://arxiv.org/abs/2405.01847v1
- Date: Fri, 3 May 2024 04:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 13:45:11.355380
- Title: A Model-based Multi-Agent Personalized Short-Video Recommender System
- Title(参考訳): モデルに基づくマルチエージェントパーソナライズされたショートビデオレコメンダシステム
- Authors: Peilun Zhou, Xiaoxiao Xu, Lantao Hu, Han Li, Peng Jiang,
- Abstract要約: 本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。
提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
- 参考スコア(独自算出の注目度): 19.03089585214444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender selects and presents top-K items to the user at each online request, and a recommendation session consists of several sequential requests. Formulating a recommendation session as a Markov decision process and solving it by reinforcement learning (RL) framework has attracted increasing attention from both academic and industry communities. In this paper, we propose a RL-based industrial short-video recommender ranking framework, which models and maximizes user watch-time in an environment of user multi-aspect preferences by a collaborative multi-agent formulization. Moreover, our proposed framework adopts a model-based learning approach to alleviate the sample selection bias which is a crucial but intractable problem in industrial recommender system. Extensive offline evaluations and live experiments confirm the effectiveness of our proposed method over alternatives. Our proposed approach has been deployed in our real large-scale short-video sharing platform, successfully serving over hundreds of millions users.
- Abstract(参考訳): Recommenderは、オンラインリクエスト毎にトップKアイテムを選択し、提示し、レコメンデーションセッションは、いくつかのシーケンシャルなリクエストで構成される。
マルコフ決定プロセスとしてレコメンデーションセッションを定式化し、強化学習(RL)フレームワークで解決することは、学術コミュニティと産業コミュニティの両方から注目を集めている。
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
さらに,本提案フレームワークは,産業レコメンデータシステムにおいて重要ではあるが難解な問題であるサンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用する。
大規模なオフライン評価とライブ実験により,提案手法の有効性が検証された。
提案手法は当社の大規模なショートビデオ共有プラットフォームに導入され,数億人以上のユーザを対象とした運用に成功しています。
関連論文リスト
- Pareto Front Approximation for Multi-Objective Session-Based Recommender Systems [0.0]
MultiTRONは、マルチオブジェクトセッションベースのレコメンデータシステムに近似技術を適用するアプローチである。
提案手法は,選好ベクトルの学習によるクリックスルーや変換率といった重要な指標間のトレードオフを最適化する。
大規模なオフラインおよびオンライン評価を通じて、モデルの性能を検証する。
論文 参考訳(メタデータ) (2024-07-23T20:38:23Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大規模言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の4.13%が大幅に向上した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z) - Mirror Gradient: Towards Robust Multimodal Recommender Systems via
Exploring Flat Local Minima [54.06000767038741]
フラットローカルミニマの新しい視点からマルチモーダルリコメンデータシステムの解析を行う。
我々はミラーグラディエント(MG)と呼ばれる簡潔で効果的な勾配戦略を提案する。
提案したMGは、既存の堅牢なトレーニング手法を補完し、多様な高度なレコメンデーションモデルに容易に拡張できることが判明した。
論文 参考訳(メタデータ) (2024-02-17T12:27:30Z) - Curriculum-scheduled Knowledge Distillation from Multiple Pre-trained Teachers for Multi-domain Sequential Recommendation [102.91236882045021]
現実世界のシステムにおいて、様々な事前学習されたレコメンデーションモデルを効率的に利用する方法について検討することが不可欠である。
多分野連続的な推薦のために,複数の事前学習教師によるカリキュラムスケジューリング型知識蒸留を提案する。
CKD-MDSRは、複数の教師モデルとして異なるPRMの利点を最大限に活用し、小学生推薦モデルを強化している。
論文 参考訳(メタデータ) (2024-01-01T15:57:15Z) - Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective [11.31980071390936]
本稿では,産業規模でのポッドキャストレコメンデーションシステムについて紹介する。
機械学習アルゴリズムを短時間のプロキシメトリクスに最適化するという、幅広い業界慣行から逸脱して、システムはA/Bテストの長期的なパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-02-07T16:17:25Z) - Constrained Reinforcement Learning for Short Video Recommendation [18.492477839791274]
ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーターシステムの最適化に新たな課題をもたらす。
アクター・クリティカルな枠組みに基づく2段階強化学習手法を提案する。
当社のアプローチは,ユーザエクスペリエンスを最適化するために,運用システムで完全にローンチされています。
論文 参考訳(メタデータ) (2022-05-26T09:36:20Z) - A Review on Pushing the Limits of Baseline Recommendation Systems with
the integration of Opinion Mining & Information Retrieval Techniques [0.0]
Recommendation Systemsでは、利用者の期待にタイムリーかつ関連性がありながら、コミュニティ内のトレンドアイテムを識別することができる。
より優れた品質のレコメンデーションを達成するために、ディープラーニングの手法が提案されている。
研究者たちは、最も効果的なレコメンデーションを提供するために、標準レコメンデーションシステムの能力を拡大しようと試みている。
論文 参考訳(メタデータ) (2022-05-03T22:13:33Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - PinnerSage: Multi-Modal User Embedding Framework for Recommendations at
Pinterest [54.56236567783225]
PinnerSageはエンド・ツー・エンドのレコメンデーションシステムで、マルチモーダル・埋め込みを通じて各ユーザーを表現する。
オフラインおよびオンラインA/B実験を複数実施し,本手法が単一埋め込み法より有意に優れていることを示す。
論文 参考訳(メタデータ) (2020-07-07T17:13:20Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。