論文の概要: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
- arxiv url: http://arxiv.org/abs/2405.13362v1
- Date: Wed, 22 May 2024 05:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:14:40.783597
- Title: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
- Title(参考訳): Lusifer:オンラインレコメンダシステムのためのLLMベースのユーザシミュレートフィードバック環境
- Authors: Danial Ebrat, Luis Rueda,
- Abstract要約: Lusiferは、シミュレーションされたユーザフィードバックを生成する新しい環境である。
ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。
MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training reinforcement learning-based recommender systems are often hindered by the lack of dynamic and realistic user interactions. Lusifer, a novel environment leveraging Large Language Models (LLMs), addresses this limitation by generating simulated user feedback. It synthesizes user profiles and interaction histories to simulate responses and behaviors toward recommended items. In addition, user profiles are updated after each rating to reflect evolving user characteristics. Using the MovieLens100K dataset as proof of concept, Lusifer demonstrates accurate emulation of user behavior and preferences. This paper presents Lusifer's operational pipeline, including prompt generation and iterative user profile updates. While validating Lusifer's ability to produce realistic dynamic feedback, future research could utilize this environment to train reinforcement learning systems, offering a scalable and adjustable framework for user simulation in online recommender systems.
- Abstract(参考訳): 強化学習に基づく推薦システムは、動的で現実的なユーザーインタラクションの欠如によってしばしば妨げられる。
Lusiferは、LLM(Large Language Models)を利用した新しい環境であり、シミュレーションされたユーザフィードバックを生成することで、この制限に対処する。
ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。
さらに、ユーザプロファイルは、各レーティング後に更新され、進化するユーザ特性を反映する。
MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。
本稿では、即時生成と反復的なユーザプロファイル更新を含むLulsiferの運用パイプラインについて述べる。
Lusiferが現実的な動的フィードバックを生み出す能力を検証する一方で、将来の研究は、この環境を利用して強化学習システムのトレーニングを行い、オンラインレコメンデータシステムにおけるユーザシミュレーションのためのスケーラブルで調整可能なフレームワークを提供する。
関連論文リスト
- WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [28.317315761271804]
WildFeedbackは、リアルタイムのin-situユーザーインタラクションを活用して、より正確に人間の価値観を反映した好みデータセットを作成する新しいフレームワークである。
我々は,このフレームワークをユーザとLLMの会話の大規模なコーパスに適用し,実際のユーザの好みを反映したリッチな嗜好データセットを実現する。
実験により,WildFeedbackを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - Learning Social Graph for Inactive User Recommendation [50.090904659803854]
LSIRはソーシャルレコメンデーションのための最適なソーシャルグラフ構造を学習する。
実世界のデータセットの実験では、LSIRはNDCGで最大129.58%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-05-08T03:40:36Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Sim2Rec: A Simulator-based Decision-making Approach to Optimize
Real-World Long-term User Engagement in Sequential Recommender Systems [43.31078296862647]
逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は強化学習(RL)に適している
RLには欠点があり、特に探索には多数のオンラインサンプルが必要である。
シミュレーション・ツー・レコメンデーション(Sim2Rec)というシミュレーターベースの推奨ポリシートレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-05-03T19:21:25Z) - PUNR: Pre-training with User Behavior Modeling for News Recommendation [26.349183393252115]
ニュースレコメンデーションは、ユーザーの行動に基づいてクリック行動を予測することを目的としている。
ユーザの表現を効果的にモデル化する方法が、望ましいニュースを推奨する鍵である。
本研究では,ユーザ行動マスキングとユーザ行動生成という2つのタスクを備えた教師なし事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T08:03:52Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - User Memory Reasoning for Conversational Recommendation [68.34475157544246]
本研究では,ユーザの過去の(オフライン)好みと現在の(オンライン)要求を動的に管理する対話レコメンデーションモデルについて検討する。
MGConvRexはユーザメモリ上の人間レベルの推論をキャプチャし、推奨のためにゼロショット(コールドスタート)推論のためにユーザのトレーニング/テストセットを分離する。
論文 参考訳(メタデータ) (2020-05-30T05:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。