論文の概要: Supervised Advantage Actor-Critic for Recommender Systems
- arxiv url: http://arxiv.org/abs/2111.03474v1
- Date: Fri, 5 Nov 2021 12:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 16:10:42.111447
- Title: Supervised Advantage Actor-Critic for Recommender Systems
- Title(参考訳): Recommender システムのためのアドバンテージアクター・クライブ
- Authors: Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Joemon M. Jose
- Abstract要約: 本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
- 参考スコア(独自算出の注目度): 76.7066594130961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Casting session-based or sequential recommendation as reinforcement learning
(RL) through reward signals is a promising research direction towards
recommender systems (RS) that maximize cumulative profits. However, the direct
use of RL algorithms in the RS setting is impractical due to challenges like
off-policy training, huge action spaces and lack of sufficient reward signals.
Recent RL approaches for RS attempt to tackle these challenges by combining RL
and (self-)supervised sequential learning, but still suffer from certain
limitations. For example, the estimation of Q-values tends to be biased toward
positive values due to the lack of negative reward signals. Moreover, the
Q-values also depend heavily on the specific timestamp of a sequence.
To address the above problems, we propose negative sampling strategy for
training the RL component and combine it with supervised sequential learning.
We call this method Supervised Negative Q-learning (SNQN). Based on sampled
(negative) actions (items), we can calculate the "advantage" of a positive
action over the average case, which can be further utilized as a normalized
weight for learning the supervised sequential part. This leads to another
learning framework: Supervised Advantage Actor-Critic (SA2C). We instantiate
SNQN and SA2C with four state-of-the-art sequential recommendation models and
conduct experiments on two real-world datasets. Experimental results show that
the proposed approaches achieve significantly better performance than
state-of-the-art supervised methods and existing self-supervised RL methods .
Code will be open-sourced.
- Abstract(参考訳): 報酬信号によるセッションベースまたは逐次レコメンデーションの強化学習(rl)は、累積利益を最大化するレコメンデーションシステム(rs)に対する有望な研究方向である。
しかし、RS設定でのRLアルゴリズムの直接使用は、政治外のトレーニング、巨大なアクションスペース、十分な報酬信号の欠如といった課題のため、現実的ではない。
RSに対する最近のRLアプローチは、RLと(自己)教師付きシーケンシャルラーニングを組み合わせることでこれらの課題に対処しようとするが、それでも一定の制限に悩まされている。
例えば、Q値の推定は負の報酬信号の欠如により正の値に偏っている傾向にある。
さらに、Q値はシーケンスの特定のタイムスタンプにも大きく依存する。
上記の問題に対処するために,rlコンポーネントをトレーニングし,教師付き逐次学習と組み合わせるための負のサンプリング戦略を提案する。
この手法を Supervised Negative Q-learning (SNQN) と呼ぶ。
サンプリングされた(負の)作用(items)に基づいて、平均の場合に対する正の作用の「アドバンテージ」を計算することができ、さらに教師付き逐次部分を学ぶための正規化重みとして利用できる。
これは別の学習フレームワーク、Supervised Advantage Actor-Critic (SA2C)につながります。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
実験結果から,提案手法は最先端の教師付き手法や既存の自己教師付きRL手法よりもはるかに優れた性能を示した。
コードはオープンソースになる。
関連論文リスト
- Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。