論文の概要: Model-free Reinforcement Learning with Stochastic Reward Stabilization
for Recommender Systems
- arxiv url: http://arxiv.org/abs/2308.13246v1
- Date: Fri, 25 Aug 2023 08:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 14:42:50.299695
- Title: Model-free Reinforcement Learning with Stochastic Reward Stabilization
for Recommender Systems
- Title(参考訳): 確率的リワード安定化を用いたモデルレス強化学習
- Authors: Tianchi Cai, Shenliao Bao, Jiyan Jiang, Shiji Zhou, Wenpeng Zhang,
Lihong Gu, Jinjie Gu, Guannan Zhang
- Abstract要約: あるユーザの異なる時間における同じ項目に対するフィードバックはランダムである。
直接フィードバックを教師付きモデルで学んだものと置き換える2つの報酬安定化フレームワークを設計する。
- 参考スコア(独自算出の注目度): 20.395091290715502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model-free RL-based recommender systems have recently received increasing
research attention due to their capability to handle partial feedback and
long-term rewards. However, most existing research has ignored a critical
feature in recommender systems: one user's feedback on the same item at
different times is random. The stochastic rewards property essentially differs
from that in classic RL scenarios with deterministic rewards, which makes
RL-based recommender systems much more challenging. In this paper, we first
demonstrate in a simulator environment where using direct stochastic feedback
results in a significant drop in performance. Then to handle the stochastic
feedback more efficiently, we design two stochastic reward stabilization
frameworks that replace the direct stochastic feedback with that learned by a
supervised model. Both frameworks are model-agnostic, i.e., they can
effectively utilize various supervised models. We demonstrate the superiority
of the proposed frameworks over different RL-based recommendation baselines
with extensive experiments on a recommendation simulator as well as an
industrial-level recommender system.
- Abstract(参考訳): モデルフリーなRLベースのレコメンデータシステムは、最近、部分的なフィードバックや長期的な報酬を扱う能力から、研究の注目を集めている。
しかし、既存のほとんどの研究はレコメンデーションシステムにおいて重要な機能を無視している。
確率的報酬特性は、決定論的報酬を持つ古典的なRLシナリオと本質的に異なるため、RLベースのレコメンダシステムはより困難である。
本稿では,直接確率的フィードバックを用いることで性能が大幅に低下するシミュレータ環境において,まず実演を行う。
そして, 確率的フィードバックをより効率的に処理するために, 直接確率的フィードバックを教師付きモデルに置き換える2つの確率的報酬安定化フレームワークを設計する。
どちらのフレームワークもモデルに依存しない、すなわち、様々な教師付きモデルを効果的に利用することができる。
提案手法は,産業レベルのレコメンデーションシステムと同様に,レコメンデーションシミュレータを用いた広範囲な実験を行い,rlベースレコメンデーションベースラインよりも優れていることを示す。
関連論文リスト
- ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems [14.74207332728742]
オフライン強化学習(RL)は,実世界のレコメンデーションシステムに有効なツールである。
本稿では,リコメンダシステムのためのオフライン強化学習における報酬と不確実性評価のためのモデルベースReward Shapingを提案する。
論文 参考訳(メタデータ) (2024-07-18T05:07:11Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - RGRecSys: A Toolkit for Robustness Evaluation of Recommender Systems [100.54655931138444]
複数の次元を包含するレコメンダシステムに対して,ロバスト性に関するより包括的視点を提案する。
本稿では、RecSys用のロバストネス評価ツールキットRobustness Gymを紹介し、リコメンダシステムモデルのロバストネスを迅速かつ均一に評価できるようにする。
論文 参考訳(メタデータ) (2022-01-12T10:32:53Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Recommendation Fairness: From Static to Dynamic [12.080824433982993]
推薦のための強化学習手法に公平性を組み込む方法について論じる。
我々は、推薦公正性をさらに前進させるために、マルチエージェント(ゲーム理論)最適化、マルチオブジェクト(パレート)最適化を検討すべきかもしれないと論じる。
論文 参考訳(メタデータ) (2021-09-05T21:38:05Z) - Top-N Recommendation with Counterfactual User Preference Simulation [26.597102553608348]
ユーザーランキングに基づく好みの学習を目的としたTop-Nレコメンデーションは、長い間、広範囲のアプリケーションにおいて基本的な問題だった。
本稿では,データ不足問題に対処するため,因果推論フレームワーク内での推薦タスクの再構築を提案する。
論文 参考訳(メタデータ) (2021-09-02T14:28:46Z) - Fast Multi-Step Critiquing for VAE-based Recommender Systems [27.207067974031805]
M&Ms-VAEは、提案と説明のための新しい変分オートエンコーダです。
モデルを弱い監督スキームでトレーニングし、完全および部分的に観察された変数をシミュレートします。
次に、訓練されたM&Ms-VAEモデルの一般化能力を利用して、ユーザの好みと批判を個別に埋め込む。
論文 参考訳(メタデータ) (2021-05-03T12:26:09Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。