論文の概要: Reinforce Lifelong Interaction Value of User-Author Pairs for Large-Scale Recommendation Systems
- arxiv url: http://arxiv.org/abs/2507.16253v1
- Date: Tue, 22 Jul 2025 05:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.984363
- Title: Reinforce Lifelong Interaction Value of User-Author Pairs for Large-Scale Recommendation Systems
- Title(参考訳): 大規模レコメンデーションシステムにおけるユーザ・オーソリティ・ペアの寿命的相互作用値の強化
- Authors: Yisha Li, Lexi Gao, Jingxin Liu, Xiang Gao, Xin Li, Haiyang Lu, Liyin Hong,
- Abstract要約: 本稿では,UAペア間の相互作用に基づいて,ユーザ-認証ペアのライフサイクルインタラクション値(RLIV-UA)の強化にRLを導入する。
オフライン実験とオンラインA/Bテストでは、RLIV-UAモデルは比較手法よりも高いユーザ満足度と高いプラットフォーム利益を達成する。
- 参考スコア(独自算出の注目度): 11.3015594568951
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recommendation systems (RS) help users find interested content and connect authors with their target audience. Most research in RS tends to focus either on predicting users' immediate feedback (like click-through rate) accurately or improving users' long-term engagement. However, they ignore the influence for authors and the lifelong interaction value (LIV) of user-author pairs, which is particularly crucial for improving the prosperity of social community in short-video platforms. Currently, reinforcement learning (RL) can optimize long-term benefits and has been widely applied in RS. In this paper, we introduce RL to Reinforce Lifelong Interaction Value of User-Author pairs (RLIV-UA) based on each interaction of UA pairs. To address the long intervals between UA interactions and the large scale of the UA space, we propose a novel Sparse Cross-Request Interaction Markov Decision Process (SCRI-MDP) and introduce an Adjacent State Approximation (ASA) method to construct RL training samples. Additionally, we introduce Multi-Task Critic Learning (MTCL) to capture the progressive nature of UA interactions (click -> follow -> gift), where denser interaction signals are leveraged to compensate for the learning of sparse labels. Finally, an auxiliary supervised learning task is designed to enhance the convergence of the RLIV-UA model. In offline experiments and online A/B tests, the RLIV-UA model achieves both higher user satisfaction and higher platform profits than compared methods.
- Abstract(参考訳): 推薦システム(Recommendation System, RS)は、ユーザーが興味のあるコンテンツを探し出し、著者とターゲットのオーディエンスを結びつけるのに役立つ。
RSにおけるほとんどの研究は、ユーザの即時フィードバック(クリックスルー率など)を正確に予測するか、あるいはユーザの長期的なエンゲージメントを改善することに集中する傾向にある。
しかし、短いビデオプラットフォームにおけるソーシャル・コミュニティの繁栄に特に欠かせない、著者への影響やユーザー・オーサリング・ペアの生涯的相互作用価値(LIV)は無視されている。
現在、強化学習(RL)は長期的利益を最適化することができ、RSに広く適用されている。
本稿では,UAペア間の相互作用に基づいて,ユーザ-認証ペアの寿命的相互作用値(RLIV-UA)の強化にRLを導入する。
UA 相互作用と UA 空間の大規模化の間の長い間隔に対処するため,新しい Sparse Cross-Request Interaction Markov Decision Process (SCRI-MDP) を提案し,RL トレーニングサンプルを構築するための Adjacent State Approximation (ASA) 手法を提案する。
さらに,マルチタスク批判学習(MTCL, Multi-Task Critic Learning)を導入し,UA相互作用の進行的な性質(クリック ->フォロー ->ギフト)を把握し,より密な相互作用信号を利用してスパースラベルの学習を補う。
最後に、RLIV-UAモデルの収束を高めるために、補助教師付き学習タスクを設計する。
オフライン実験とオンラインA/Bテストでは、RLIV-UAモデルは比較手法よりも高いユーザ満足度と高いプラットフォーム利益を達成する。
関連論文リスト
- Reinforcement Learning from User Feedback [28.335218244885706]
本稿では,大規模言語モデルとユーザの好みを整合させるフレームワークであるReinforcement Learning from User Feedback (RLUF)を紹介する。
報奨モデル P[Love] をトレーニングし, LLM 応答がラブ反応を受ける可能性を予測する。
P[Love]は肯定的なフィードバックの増加を予測し,将来のユーザ行動の信頼性の高いオフライン評価手段として機能することを示す。
論文 参考訳(メタデータ) (2025-05-20T22:14:44Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:44:48Z) - Retrieval Augmentation via User Interest Clustering [57.63883506013693]
インダストリアルレコメンデータシステムは、ユーザ・イテム・エンゲージメントのパターンに敏感である。
本稿では,ユーザの関心を効率的に構築し,計算コストの低減を図る新しい手法を提案する。
当社のアプローチはMetaの複数の製品に展開されており、ショートフォームビデオ関連の推奨を助長しています。
論文 参考訳(メタデータ) (2024-08-07T16:35:10Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - Meta-Learning for Online Update of Recommender Systems [29.69934307878855]
MeLONは、双方向の柔軟性をサポートする新しいオンラインレコメンデータ更新戦略である。
MeLONは、リコメンデータが将来のアップデートのために最適な学習率を生成する方法を学ぶ。
論文 参考訳(メタデータ) (2022-03-19T16:27:30Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Dynamic Embeddings for Interaction Prediction [2.5758502140236024]
推薦システム(RS)では、ユーザが対話する次の項目を予測することが、ユーザの保持に不可欠である。
近年,ユーザとアイテム間の相互相互作用を個別のユーザとアイテムの埋め込みを用いてモデル化する手法の有効性が示されている。
本稿では,DeePRedと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T16:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。