論文の概要: Robust Reinforcement Learning Objectives for Sequential Recommender
Systems
- arxiv url: http://arxiv.org/abs/2305.18820v1
- Date: Tue, 30 May 2023 08:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:39:08.780221
- Title: Robust Reinforcement Learning Objectives for Sequential Recommender
Systems
- Title(参考訳): 逐次推薦システムのためのロバスト強化学習目標
- Authors: Melissa Mozifian, Tristan Sylvain, Dave Evans and Lili Meng
- Abstract要約: 注意に基づくシーケンシャルレコメンデーション手法は,過去のインタラクションからユーザの動的関心を正確に捉えることによって,有望な結果を示した。
近年, これらのモデルに強化学習(RL)を統合する研究が進められている。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペースの導入、十分な報酬信号を備えたデータセットの不足といった課題が提示される。
- 参考スコア(独自算出の注目度): 10.226091667719391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based sequential recommendation methods have demonstrated promising
results by accurately capturing users' dynamic interests from historical
interactions. In addition to generating superior user representations, recent
studies have begun integrating reinforcement learning (RL) into these models.
Framing sequential recommendation as an RL problem with reward signals, unlocks
developing recommender systems (RS) that consider a vital aspect-incorporating
direct user feedback in the form of rewards to deliver a more personalized
experience. Nonetheless, employing RL algorithms presents challenges, including
off-policy training, expansive combinatorial action spaces, and the scarcity of
datasets with sufficient reward signals. Contemporary approaches have attempted
to combine RL and sequential modeling, incorporating contrastive-based
objectives and negative sampling strategies for training the RL component. In
this study, we further emphasize the efficacy of contrastive-based objectives
paired with augmentation to address datasets with extended horizons.
Additionally, we recognize the potential instability issues that may arise
during the application of negative sampling. These challenges primarily stem
from the data imbalance prevalent in real-world datasets, which is a common
issue in offline RL contexts. While our established baselines attempt to
mitigate this through various techniques, instability remains an issue.
Therefore, we introduce an enhanced methodology aimed at providing a more
effective solution to these challenges.
- Abstract(参考訳): 注意に基づくシーケンシャルレコメンデーション手法は,過去のインタラクションからユーザの動的関心を正確に捉えることによって,有望な結果を示した。
優れたユーザ表現を生成することに加え、最近の研究は強化学習(RL)をこれらのモデルに統合し始めている。
報酬信号を備えたRL問題としてシーケンシャルレコメンデーションを分類することで、よりパーソナライズされたエクスペリエンスを提供するための報酬の形で、直接的なユーザフィードバックを組み込んだ重要な側面を考慮したレコメンデーションシステム(RS)を開発することができる。
それでも、RLアルゴリズムを採用することで、政治外のトレーニング、複合的な行動空間の拡大、十分な報酬信号を持つデータセットの不足といった課題が提示される。
現代のアプローチでは、RLコンポーネントをトレーニングするための対照的な目的と負のサンプリング戦略を取り入れて、RLとシーケンシャルモデリングを組み合わせる試みが行われている。
本研究では,拡張された地平線を持つデータセットに対応するために,拡張と組み合わせたコントラストベース目的の有効性をさらに強調する。
さらに,負のサンプリングの適用中に生じる潜在的な不安定性の問題も認識する。
これらの課題は、主に、オフラインのRLコンテキストで一般的な問題である、実世界のデータセットで一般的なデータ不均衡に起因する。
確立されたベースラインは、様々なテクニックを通じてこれを緩和しようとしていますが、不安定性は依然として問題です。
そこで本研究では,これらの課題に対して,より効果的な解決策を提供するための拡張手法を提案する。
関連論文リスト
- DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。