論文の概要: AURO: Reinforcement Learning for Adaptive User Retention Optimization in Recommender Systems
- arxiv url: http://arxiv.org/abs/2310.03984v2
- Date: Tue, 11 Feb 2025 09:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:03.053764
- Title: AURO: Reinforcement Learning for Adaptive User Retention Optimization in Recommender Systems
- Title(参考訳): AURO:Recommenderシステムにおける適応型ユーザ保持最適化のための強化学習
- Authors: Zhenghai Xue, Qingpeng Cai, Bin Yang, Lantao Hu, Peng Jiang, Kun Gai, Bo An,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、レコメンデーションシステムにおけるユーザ保持の最適化能力に注目が集まっている。
本稿では,この課題に対処するため,textbfAdaptive textbfUser textbfRetention textbfOptimization (AURO) という新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 25.18963930580529
- License:
- Abstract: The field of Reinforcement Learning (RL) has garnered increasing attention for its ability of optimizing user retention in recommender systems. A primary obstacle in this optimization process is the environment non-stationarity stemming from the continual and complex evolution of user behavior patterns over time, such as variations in interaction rates and retention propensities. These changes pose significant challenges to existing RL algorithms for recommendations, leading to issues with dynamics and reward distribution shifts. This paper introduces a novel approach called \textbf{A}daptive \textbf{U}ser \textbf{R}etention \textbf{O}ptimization (AURO) to address this challenge. To navigate the recommendation policy in non-stationary environments, AURO introduces an state abstraction module in the policy network. The module is trained with a new value-based loss function, aligning its output with the estimated performance of the current policy. As the policy performance of RL is sensitive to environment drifts, the loss function enables the state abstraction to be reflective of environment changes and notify the recommendation policy to adapt accordingly. Additionally, the non-stationarity of the environment introduces the problem of implicit cold start, where the recommendation policy continuously interacts with users displaying novel behavior patterns. AURO encourages exploration guarded by performance-based rejection sampling to maintain a stable recommendation quality in the cost-sensitive online environment. Extensive empirical analysis are conducted in a user retention simulator, the MovieLens dataset, and a live short-video recommendation platform, demonstrating AURO's superior performance against all evaluated baseline algorithms.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)の分野は、レコメンデーションシステムにおけるユーザ保持の最適化能力に注目が集まっている。
この最適化プロセスにおける主な障害は、相互作用率の変動や保持率の変動など、時間の経過とともにユーザー行動パターンの連続的かつ複雑な進化から生じる非定常性である。
これらの変更は、リコメンデーションのための既存のRLアルゴリズムに重大な課題をもたらし、ダイナミクスの問題と報奨分布シフトにつながります。
本稿では、この課題に対処するために、新しいアプローチである \textbf{A}daptive \textbf{U}ser \textbf{R}etention \textbf{O}ptimization (AURO)を提案する。
非定常環境でのレコメンデーションポリシーをナビゲートするために、AUROはポリシーネットワークに状態抽象化モジュールを導入している。
モジュールは、新しい値ベースの損失関数でトレーニングされ、その出力と現在のポリシーの見積のパフォーマンスを一致させる。
RLの政策性能は環境ドリフトに敏感であるため、損失関数により環境変化を反映した状態抽象化が可能となり、それに応じてレコメンデーションポリシーを通知する。
さらに、環境の非定常性は暗黙のコールドスタートの問題を導入し、推奨ポリシーは新規な行動パターンを表示するユーザと継続的に対話する。
AUROは、コスト感受性のあるオンライン環境において、安定したレコメンデーション品質を維持するために、パフォーマンスベースのリジェクションサンプリングによって保護された探索を奨励する。
ユーザ保持シミュレータ、MovieLensデータセット、ライブショートビデオレコメンデーションプラットフォームで大規模な実験分析を行い、評価されたベースラインアルゴリズムすべてに対してAUROの優れたパフォーマンスを示す。
関連論文リスト
- Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。
OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。
本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T14:28:18Z) - Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。