論文の概要: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
- arxiv url: http://arxiv.org/abs/2405.13362v2
- Date: Wed, 27 Nov 2024 17:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:02.340152
- Title: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
- Title(参考訳): Lusifer:オンラインレコメンダシステムのためのLLMベースのユーザシミュレートフィードバック環境
- Authors: Danial Ebrat, Eli Paradalis, Luis Rueda,
- Abstract要約: 本稿では,Lulsiferについて紹介する。LulsiferはLarge Language Models(LLMs)を利用して,シミュレーションされたユーザフィードバックを生成する新しい環境である。
Lusiferはユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。
Lusiferは、RMSE 1.3のトレーニングデータが少なくても、ユーザの振る舞いや好みを正確にエミュレートする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Training reinforcement learning-based recommender systems is often hindered by the lack of dynamic and realistic user interactions. To address this limitation, we introduce Lusifer, a novel environment leveraging Large Language Models (LLMs) to generate simulated user feedback. Lusifer synthesizes user profiles and interaction histories to simulate responses and behaviors toward recommended items, with profiles updated after each rating to reflect evolving user characteristics. Utilizing the MovieLens dataset as a proof of concept, we limited our implementation to the last 40 interactions for each user, representing approximately 39% and 22% of the training sets, to focus on recent user behavior. For consistency and to gain insights into the performance of traditional methods with limited data, we implemented baseline approaches using the same data subset. Our results demonstrate that Lusifer accurately emulates user behavior and preferences, even with reduced training data having an RMSE of 1.3 across various test sets. This paper presents Lusifer's operational pipeline, including prompt generation and iterative user profile updates, and compares its performance against baseline methods. The findings validate Lusifer's ability to produce realistic dynamic feedback and suggest that it offers a scalable and adjustable framework for user simulation in online reinforcement learning recommender systems for future studies, particularly when training data is limited.
- Abstract(参考訳): 強化学習に基づく推薦システムは、動的で現実的なユーザーインタラクションの欠如によってしばしば妨げられる。
この制限に対処するために,Lusiferを紹介した。Lusiferは,LLM(Large Language Models)を利用してシミュレーションされたユーザフィードバックを生成する新しい環境である。
Lusiferはユーザープロファイルとインタラクション履歴を合成し、推奨項目に対する反応と振る舞いをシミュレートする。
MovieLensデータセットを概念実証として使用して、最近のユーザ行動に集中するために、ユーザ毎の最後の40のインタラクションに、トレーニングセットの約39%と22%を限定しました。
一貫性と、制限されたデータを持つ従来のメソッドのパフォーマンスに関する洞察を得るために、同じデータサブセットを使用してベースラインアプローチを実装しました。
この結果から, RMSEが1.3であるトレーニングデータが少なくても, ユーザの行動や嗜好を正確にエミュレートできることがわかった。
本稿では,素早い生成と反復的なユーザプロファイル更新を含むLulsiferの運用パイプラインを示し,その性能をベースライン手法と比較する。
この結果は、現実的な動的フィードバックを生成するLulsiferの能力を検証するとともに、特にトレーニングデータに制限のあるオンライン強化学習推薦システムにおいて、ユーザシミュレーションのためのスケーラブルで調整可能なフレームワークを提供することを示唆している。
関連論文リスト
- WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [28.317315761271804]
WildFeedbackは、リアルタイムのin-situユーザーインタラクションを活用して、より正確に人間の価値観を反映した好みデータセットを作成する新しいフレームワークである。
我々は,このフレームワークをユーザとLLMの会話の大規模なコーパスに適用し,実際のユーザの好みを反映したリッチな嗜好データセットを実現する。
実験により,WildFeedbackを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - Learning Social Graph for Inactive User Recommendation [50.090904659803854]
LSIRはソーシャルレコメンデーションのための最適なソーシャルグラフ構造を学習する。
実世界のデータセットの実験では、LSIRはNDCGで最大129.58%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-05-08T03:40:36Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Sim2Rec: A Simulator-based Decision-making Approach to Optimize
Real-World Long-term User Engagement in Sequential Recommender Systems [43.31078296862647]
逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は強化学習(RL)に適している
RLには欠点があり、特に探索には多数のオンラインサンプルが必要である。
シミュレーション・ツー・レコメンデーション(Sim2Rec)というシミュレーターベースの推奨ポリシートレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-05-03T19:21:25Z) - PUNR: Pre-training with User Behavior Modeling for News Recommendation [26.349183393252115]
ニュースレコメンデーションは、ユーザーの行動に基づいてクリック行動を予測することを目的としている。
ユーザの表現を効果的にモデル化する方法が、望ましいニュースを推奨する鍵である。
本研究では,ユーザ行動マスキングとユーザ行動生成という2つのタスクを備えた教師なし事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T08:03:52Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - User Memory Reasoning for Conversational Recommendation [68.34475157544246]
本研究では,ユーザの過去の(オフライン)好みと現在の(オンライン)要求を動的に管理する対話レコメンデーションモデルについて検討する。
MGConvRexはユーザメモリ上の人間レベルの推論をキャプチャし、推奨のためにゼロショット(コールドスタート)推論のためにユーザのトレーニング/テストセットを分離する。
論文 参考訳(メタデータ) (2020-05-30T05:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。