論文の概要: AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement
- arxiv url: http://arxiv.org/abs/2310.03984v1
- Date: Fri, 6 Oct 2023 02:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 03:29:45.588401
- Title: AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement
- Title(参考訳): AdaRec: 長期ユーザエンゲージメントの強化のための適応的シーケンスレコメンデーション
- Authors: Zhenghai Xue, Qingpeng Cai, Tianyou Zuo, Bin Yang, Lantao Hu, Peng
Jiang, Kun Gai, Bo An
- Abstract要約: 本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
- 参考スコア(独自算出の注目度): 25.18963930580529
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Growing attention has been paid to Reinforcement Learning (RL) algorithms
when optimizing long-term user engagement in sequential recommendation tasks.
One challenge in large-scale online recommendation systems is the constant and
complicated changes in users' behavior patterns, such as interaction rates and
retention tendencies. When formulated as a Markov Decision Process (MDP), the
dynamics and reward functions of the recommendation system are continuously
affected by these changes. Existing RL algorithms for recommendation systems
will suffer from distribution shift and struggle to adapt in such an MDP. In
this paper, we introduce a novel paradigm called Adaptive Sequential
Recommendation (AdaRec) to address this issue. AdaRec proposes a new
distance-based representation loss to extract latent information from users'
interaction trajectories. Such information reflects how RL policy fits to
current user behavior patterns, and helps the policy to identify subtle changes
in the recommendation system. To make rapid adaptation to these changes, AdaRec
encourages exploration with the idea of optimism under uncertainty. The
exploration is further guarded by zero-order action optimization to ensure
stable recommendation quality in complicated environments. We conduct extensive
empirical analyses in both simulator-based and live sequential recommendation
tasks, where AdaRec exhibits superior long-term performance compared to all
baseline algorithms.
- Abstract(参考訳): シーケンシャルレコメンデーションタスクにおいて、長期ユーザエンゲージメントを最適化する際、強化学習(RL)アルゴリズムに注目が集まる。
大規模オンラインレコメンデーションシステムにおける課題の1つは、対話率や保持傾向といったユーザの行動パターンの一定かつ複雑な変化である。
マルコフ決定過程(MDP)として定式化されると、レコメンデーションシステムの力学と報酬関数はこれらの変化に継続的に影響を受ける。
既存のレコメンデーションシステムのrlアルゴリズムは、分散シフトとそのようなmdpへの適応に苦しむことになる。
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
このような情報は、RLポリシーが現在のユーザの行動パターンにどのように適合するかを反映し、レコメンデーションシステムの微妙な変化を特定するのに役立つ。
これらの変化に迅速に適応するために、AdaRecは不確実性の下で楽観主義を探求することを奨励している。
この探索は、複雑な環境で安定したレコメンデーション品質を確保するため、ゼロオーダーアクション最適化によってさらに守られている。
adarecがすべてのベースラインアルゴリズムよりも優れた長期性能を示すシミュレータベースとライブシーケンシャルレコメンデーションタスクの両方において,広範な経験的解析を行う。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - CSRec: Rethinking Sequential Recommendation from A Causal Perspective [25.69446083970207]
シーケンシャルなレコメンデータシステム(RecSys)の本質は、ユーザが意思決定を行う方法を理解することです。
我々は、CSRec(Causal Sequential Recommendation)と呼ばれる、シーケンシャルレコメンデーションの新しい定式化を提案する。
CSRecは、シーケンシャルなコンテキスト内で推奨項目が受け入れられる確率を予測し、現在の決定がどのようになされるかをバックトラックすることを目的としている。
論文 参考訳(メタデータ) (2024-08-23T23:19:14Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Fisher-Weighted Merge of Contrastive Learning Models in Sequential
Recommendation [0.0]
我々は、まず、フィッシャー・マージング法をシークエンシャル・レコメンデーションに適用し、それに関連する実践的な課題に対処し、解決する。
提案手法の有効性を実証し, シーケンシャルラーニングおよびレコメンデーションシステムにおける最先端化の可能性を明らかにする。
論文 参考訳(メタデータ) (2023-07-05T05:58:56Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - D2RLIR : an improved and diversified ranking function in interactive
recommendation systems based on deep reinforcement learning [0.3058685580689604]
本稿では,アクタ・クリティカルアーキテクチャを用いた深層強化学習に基づく推薦システムを提案する。
提案モデルでは,ユーザの嗜好に基づいて,多様かつ関連性の高いレコメンデーションリストを生成することができる。
論文 参考訳(メタデータ) (2021-10-28T13:11:29Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。