論文の概要: Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation
- arxiv url: http://arxiv.org/abs/2310.16566v1
- Date: Wed, 25 Oct 2023 11:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:15:52.381824
- Title: Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation
- Title(参考訳): 逐次推薦のためのモデル強化コントラスト強化学習
- Authors: Chengpeng Li, Zhengyi Yang, Jizhi Zhang, Jiancan Wu, Dingxian Wang,
Xiangnan He, Xiang Wang
- Abstract要約: モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 28.218427886174506
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning (RL) has been widely applied in recommendation systems
due to its potential in optimizing the long-term engagement of users. From the
perspective of RL, recommendation can be formulated as a Markov decision
process (MDP), where recommendation system (agent) can interact with users
(environment) and acquire feedback (reward signals).However, it is impractical
to conduct online interactions with the concern on user experience and
implementation complexity, and we can only train RL recommenders with offline
datasets containing limited reward signals and state transitions. Therefore,
the data sparsity issue of reward signals and state transitions is very severe,
while it has long been overlooked by existing RL recommenders.Worse still, RL
methods learn through the trial-and-error mode, but negative feedback cannot be
obtained in implicit feedback recommendation tasks, which aggravates the
overestimation problem of offline RL recommender. To address these challenges,
we propose a novel RL recommender named model-enhanced contrastive
reinforcement learning (MCRL). On the one hand, we learn a value function to
estimate the long-term engagement of users, together with a conservative value
learning mechanism to alleviate the overestimation problem.On the other hand,
we construct some positive and negative state-action pairs to model the reward
function and state transition function with contrastive learning to exploit the
internal structure information of MDP. Experiments demonstrate that the
proposed method significantly outperforms existing offline RL and
self-supervised RL methods with different representative backbone networks on
two real-world datasets.
- Abstract(参考訳): 強化学習(RL)は,ユーザの長期エンゲージメントを最適化する可能性から,レコメンデーションシステムに広く応用されている。
RLの観点からは、レコメンデーションはMarkov決定プロセス(MDP)として定式化され、レコメンデーションシステム(エージェント)はユーザ(環境)と対話し、フィードバック(リワード信号)を取得することができる。
しかし、ユーザエクスペリエンスや実装の複雑さに関する懸念からオンラインインタラクションを行うことは現実的ではなく、リターン信号や状態遷移の制限を含むオフラインデータセットでRLレコメンデータをトレーニングすることしかできません。
そのため、既存のRLレコメンダは長年見過ごされてきたが、報酬信号や状態遷移のデータスポーサリティの問題は非常に深刻であり、RLメソッドは試行錯誤モードを通じて学習するが、負のフィードバックは暗黙のフィードバックレコメンダでは得られず、オフラインRLレコメンダの過大評価問題を悪化させる。
これらの課題に対処するために,モデル強化コントラスト強化学習(MCRL)という新しいRL推薦手法を提案する。
一方,ユーザの長期関与を推定する価値関数と,過大評価問題を緩和する保守的価値学習機構を学習する一方で,mdpの内部構造情報を活用するために,報酬関数と状態遷移関数をモデル化するための肯定的および否定的な状態動作ペアを構築した。
実験により,提案手法が既存のオフラインrlおよび自己教師付きrl法を2つの実世界のデータセット上で異なる代表バックボーンネットワークで大幅に上回ることを示した。
関連論文リスト
- ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems [14.74207332728742]
オフライン強化学習(RL)は,実世界のレコメンデーションシステムに有効なツールである。
本稿では,リコメンダシステムのためのオフライン強化学習における報酬と不確実性評価のためのモデルベースReward Shapingを提案する。
論文 参考訳(メタデータ) (2024-07-18T05:07:11Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。