論文の概要: SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems
- arxiv url: http://arxiv.org/abs/2406.01631v2
- Date: Tue, 20 Aug 2024 13:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:40:10.833421
- Title: SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems
- Title(参考訳): SUBER:リコメンダシステムのための人間行動シミュレーションによるRL環境
- Authors: Nathan Corecco, Giorgio Piatti, Luca A. Lanzendörfer, Flint Xiaofeng Fan, Roger Wattenhofer,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) はレコメンデーションシステムの領域で人気を集めている。
この研究は、RLベースのレコメンデータシステムをトレーニングするためのモジュラーで斬新なフレームワークを導入している。
RL環境を含むソフトウェアはGitHubで公開されている。
- 参考スコア(独自算出の注目度): 18.716102193517315
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning (RL) has gained popularity in the realm of recommender systems due to its ability to optimize long-term rewards and guide users in discovering relevant content. However, the successful implementation of RL in recommender systems is challenging because of several factors, including the limited availability of online data for training on-policy methods. This scarcity requires expensive human interaction for online model training. Furthermore, the development of effective evaluation frameworks that accurately reflect the quality of models remains a fundamental challenge in recommender systems. To address these challenges, we propose a comprehensive framework for synthetic environments that simulate human behavior by harnessing the capabilities of large language models (LLMs). We complement our framework with in-depth ablation studies and demonstrate its effectiveness with experiments on movie and book recommendations. Using LLMs as synthetic users, this work introduces a modular and novel framework to train RL-based recommender systems. The software, including the RL environment, is publicly available on GitHub.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は, 長期報酬を最適化し, 利用者に関連コンテンツの発見を指導する能力によって, 推薦システムの領域で人気を博している。
しかし,レコメンデーションシステムにおけるRLの実装は,オンラインデータの利用率の制限など,いくつかの要因により困難である。
この不足は、オンラインモデルのトレーニングに高価なヒューマンインタラクションを必要とします。
さらに、モデルの品質を正確に反映した効果的な評価フレームワークの開発は、レコメンダシステムにおける根本的な課題である。
これらの課題に対処するために,大規模言語モデル(LLM)の能力を活用し,人間の行動をシミュレートする総合的な合成環境フレームワークを提案する。
我々は,本フレームワークを詳細なアブレーション研究で補完し,映画や書籍のレコメンデーション実験でその効果を実証する。
LLMを合成ユーザとして使用することにより、RLベースのレコメンデータシステムをトレーニングするためのモジュラーで斬新なフレームワークを導入する。
RL環境を含むソフトウェアはGitHubで公開されている。
関連論文リスト
- ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems [14.74207332728742]
オフライン強化学習(RL)は,実世界のレコメンデーションシステムに有効なツールである。
本稿では,リコメンダシステムのためのオフライン強化学習における報酬と不確実性評価のためのモデルベースReward Shapingを提案する。
論文 参考訳(メタデータ) (2024-07-18T05:07:11Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Recommender Systems in the Era of Large Language Models (LLMs) [62.0129013439038]
大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。
我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
論文 参考訳(メタデータ) (2023-07-05T06:03:40Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。