論文の概要: RecoMind: A Reinforcement Learning Framework for Optimizing In-Session User Satisfaction in Recommendation Systems
- arxiv url: http://arxiv.org/abs/2508.00201v1
- Date: Thu, 31 Jul 2025 23:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.684191
- Title: RecoMind: A Reinforcement Learning Framework for Optimizing In-Session User Satisfaction in Recommendation Systems
- Title(参考訳): RecoMind:レコメンデーションシステムにおけるユーザ満足度を最適化するための強化学習フレームワーク
- Authors: Mehdi Ben Ayed, Fei Feng, Jay Adams, Vishwakarma Singh, Kritarth Anand, Jiajing Xu,
- Abstract要約: RecoMindは、Webスケールでのセッションベースの目標を効果的に最適化するために設計されたシミュレータベースの強化学習フレームワークである。
RecoMindは、従来の教師付き学習推奨手法よりも、セッション内ユーザの満足度において大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 2.4762227354811293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing web-scale recommendation systems commonly use supervised learning methods that prioritize immediate user feedback. Although reinforcement learning (RL) offers a solution to optimize longer-term goals, such as in-session engagement, applying it at web scale is challenging due to the extremely large action space and engineering complexity. In this paper, we introduce RecoMind, a simulator-based RL framework designed for the effective optimization of session-based goals at web-scale. RecoMind leverages existing recommendation models to establish a simulation environment and to bootstrap the RL policy to optimize immediate user interactions from the outset. This method integrates well with existing industry pipelines, simplifying the training and deployment of RL policies. Additionally, RecoMind introduces a custom exploration strategy to efficiently explore web-scale action spaces with hundreds of millions of items. We evaluated RecoMind through extensive offline simulations and online A/B testing on a video streaming platform. Both methods showed that the RL policy trained using RecoMind significantly outperforms traditional supervised learning recommendation approaches in in-session user satisfaction. In online A/B tests, the RL policy increased videos watched for more than 10 seconds by 15.81\% and improved session depth by 4.71\% for sessions with at least 10 interactions. As a result, RecoMind presents a systematic and scalable approach for embedding RL into web-scale recommendation systems, showing great promise for optimizing session-based user satisfaction.
- Abstract(参考訳): 既存のWebスケールレコメンデーションシステムでは、即時フィードバックを優先する教師付き学習手法が一般的である。
強化学習(RL)は、セッション内エンゲージメントなどの長期的な目標を最適化するソリューションを提供するが、非常に大きなアクションスペースとエンジニアリングの複雑さのため、Webスケールで適用することは困難である。
本稿では,Webスケールでのセッションベース目標の効率的な最適化を目的としたシミュレータベースのRLフレームワークRecoMindを紹介する。
RecoMindは既存のレコメンデーションモデルを活用してシミュレーション環境を確立し、RLポリシーをブートストラップして、最初からのユーザインタラクションを最適化する。
この方法は既存の産業パイプラインとうまく統合され、RLポリシーのトレーニングとデプロイが簡単になる。
さらにRecoMindは、数億のアイテムでWebスケールのアクションスペースを効率的に探索するカスタムな探索戦略も導入している。
ビデオストリーミングプラットフォーム上での大規模なオフラインシミュレーションとオンラインA/BテストによりRecoMindを評価した。
いずれの方法も、RecoMindを用いてトレーニングされたRLポリシーは、従来の教師付き学習推奨アプローチよりも、セッション内ユーザの満足度において著しく優れていた。
オンラインA/Bテストでは、RLポリシーは10秒以上視聴した動画を15.81\%、セッション深度を4.71\%改善した。
その結果、RecoMindはRLをWebスケールのレコメンデーションシステムに組み込むための体系的でスケーラブルなアプローチを示し、セッションベースのユーザの満足度を最適化する大きな可能性を示している。
関連論文リスト
- Deep Learning Model Acceleration and Optimization Strategies for Real-Time Recommendation Systems [1.9316786310787222]
リアルタイムレコメンデーションシステムの主な課題は、レコメンデーション品質を犠牲にすることなく、推論遅延を減らし、システムのスループットを向上する方法である。
本稿では,モデリングとシステムレベルのアクセラレーションと最適化を併用した手法を提案する。
実験の結果、元の推奨精度を維持しながら、我々の手法は、レイテンシをベースラインの30%未満に削減し、システムのスループットを2倍以上に削減した。
論文 参考訳(メタデータ) (2025-06-13T02:39:21Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems [18.716102193517315]
強化学習 (Reinforcement Learning, RL) はレコメンデーションシステムの領域で人気を集めている。
この研究は、RLベースのレコメンデータシステムをトレーニングするためのモジュラーで斬新なフレームワークを導入している。
RL環境を含むソフトウェアはGitHubで公開されている。
論文 参考訳(メタデータ) (2024-06-01T11:56:08Z) - Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective [11.31980071390936]
本稿では,産業規模でのポッドキャストレコメンデーションシステムについて紹介する。
機械学習アルゴリズムを短時間のプロキシメトリクスに最適化するという、幅広い業界慣行から逸脱して、システムはA/Bテストの長期的なパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-02-07T16:17:25Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Deep Reinforcement Learning-Based Product Recommender for Online
Advertising [1.7778609937758327]
本稿では,オンライン広告のレコメンデータシステムを設計するために,価値ベースとポリシーベースのディープRLアルゴリズムを比較した。
推奨項目のクリックスルーレート(CTR)を最大化する。
論文 参考訳(メタデータ) (2021-01-30T23:05:04Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。