論文の概要: Self-Supervised Reinforcement Learning for Recommender Systems
- arxiv url: http://arxiv.org/abs/2006.05779v2
- Date: Thu, 11 Jun 2020 09:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:23:12.195651
- Title: Self-Supervised Reinforcement Learning for Recommender Systems
- Title(参考訳): リコメンダシステムのための自己監督型強化学習
- Authors: Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Joemon M. Jose
- Abstract要約: 逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 77.38665506495553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In session-based or sequential recommendation, it is important to consider a
number of factors like long-term user engagement, multiple types of user-item
interactions such as clicks, purchases etc. The current state-of-the-art
supervised approaches fail to model them appropriately. Casting sequential
recommendation task as a reinforcement learning (RL) problem is a promising
direction. A major component of RL approaches is to train the agent through
interactions with the environment. However, it is often problematic to train a
recommender in an on-line fashion due to the requirement to expose users to
irrelevant recommendations. As a result, learning the policy from logged
implicit feedback is of vital importance, which is challenging due to the pure
off-policy setting and lack of negative rewards (feedback). In this paper, we
propose self-supervised reinforcement learning for sequential recommendation
tasks. Our approach augments standard recommendation models with two output
layers: one for self-supervised learning and the other for RL. The RL part acts
as a regularizer to drive the supervised layer focusing on specific
rewards(e.g., recommending items which may lead to purchases rather than
clicks) while the self-supervised layer with cross-entropy loss provides strong
gradient signals for parameter updates. Based on such an approach, we propose
two frameworks namely Self-Supervised Q-learning(SQN) and Self-Supervised
Actor-Critic(SAC). We integrate the proposed frameworks with four
state-of-the-art recommendation models. Experimental results on two real-world
datasets demonstrate the effectiveness of our approach.
- Abstract(参考訳): セッションベースやシーケンシャルなレコメンデーションでは、長期ユーザエンゲージメントやクリックや購入といった複数のユーザ・テーマインタラクションなど、さまざまな要因を考慮することが重要である。
現在の最先端の監視アプローチでは、適切なモデル化に失敗している。
強化学習(RL)問題としてのシーケンシャルレコメンデーションタスクは有望な方向である。
RLアプローチの主要なコンポーネントは、環境とのインタラクションを通じてエージェントをトレーニングすることだ。
しかし、ユーザを無関係な推奨事項に公開する必要があるため、オンライン形式でレコメンダをトレーニングすることがしばしば問題となる。
結果として、ログ化された暗黙のフィードバックからポリシーを学ぶことは極めて重要であり、純粋なオフポリシー設定と負の報酬(フィードバック)の欠如のために難しい。
本稿では,シーケンシャルレコメンデーションタスクのための自己指導型強化学習を提案する。
このアプローチでは,自己教師付き学習とrlの2つのアウトプット層による標準レコメンデーションモデルを強化している。
rl部分は、特定の報酬(例えば、クリックではなく購入につながる可能性のあるアイテムを推奨する)に焦点を当てた監督層を駆動するレギュレータとして働き、クロスエントロピー損失のある自己監督層はパラメータ更新のための強い勾配信号を提供する。
そこで本研究では,SQN(Self Supervised Q-learning)とSAC(Self Supervised Actor-Critic)という2つのフレームワークを提案する。
提案するフレームワークを4つの最先端レコメンデーションモデルに統合する。
2つの実世界のデータセットの実験結果から,本手法の有効性が示された。
関連論文リスト
- Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - Multi-behavior Self-supervised Learning for Recommendation [36.42241501002167]
本稿では,適応最適化手法とともに,MBSSL(Multi-Behavior Self-Supervised Learning)フレームワークを提案する。
具体的には、行動多重度と依存性をキャプチャする自己認識機構を組み込んだ行動認識型グラフニューラルネットワークを考案する。
5つの実世界のデータセットの実験は、MBSSLが10の最先端技術(SOTA)ベースライン上で得た一貫した改善を示している。
論文 参考訳(メタデータ) (2023-05-22T15:57:32Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。