論文の概要: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
- arxiv url: http://arxiv.org/abs/2405.13362v3
- Date: Fri, 27 Dec 2024 14:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:41.941275
- Title: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
- Title(参考訳): Lusifer:オンラインレコメンダシステムのためのLLMベースのユーザシミュレートフィードバック環境
- Authors: Danial Ebrat, Eli Paradalis, Luis Rueda,
- Abstract要約: 本稿では,Lulsiferについて紹介する。LulsiferはLarge Language Models(LLMs)を利用して,シミュレーションされたユーザフィードバックを生成する新しい環境である。
Lusiferはユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。
Lusiferは、RMSE 1.3のトレーニングデータが少なくても、ユーザの振る舞いや好みを正確にエミュレートする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Training reinforcement learning-based recommender systems is often hindered by the lack of dynamic and realistic user interactions. To address this limitation, we introduce Lusifer, a novel environment leveraging Large Language Models (LLMs) to generate simulated user feedback. Lusifer synthesizes user profiles and interaction histories to simulate responses and behaviors toward recommended items, with profiles updated after each rating to reflect evolving user characteristics. Utilizing the MovieLens dataset as a proof of concept, we limited our implementation to the last 40 interactions for each user, representing approximately 39% and 22% of the training sets, to focus on recent user behavior. For consistency and to gain insights into the performance of traditional methods with limited data, we implemented baseline approaches using the same data subset. Our results demonstrate that Lusifer accurately emulates user behavior and preferences, even with reduced training data having an RMSE of 1.3 across various test sets. This paper presents Lusifer's operational pipeline, including prompt generation and iterative user profile updates, and compares its performance against baseline methods. The findings validate Lusifer's ability to produce realistic dynamic feedback and suggest that it offers a scalable and adjustable framework for user simulation in online reinforcement learning recommender systems for future studies, particularly when training data is limited.
- Abstract(参考訳): 強化学習に基づく推薦システムは、動的で現実的なユーザーインタラクションの欠如によってしばしば妨げられる。
この制限に対処するために,Lusiferを紹介した。Lusiferは,LLM(Large Language Models)を利用してシミュレーションされたユーザフィードバックを生成する新しい環境である。
Lusiferはユーザープロファイルとインタラクション履歴を合成し、推奨項目に対する反応と振る舞いをシミュレートする。
MovieLensデータセットを概念実証として使用して、最近のユーザ行動に集中するために、ユーザ毎の最後の40のインタラクションに、トレーニングセットの約39%と22%を限定しました。
一貫性と、制限されたデータを持つ従来のメソッドのパフォーマンスに関する洞察を得るために、同じデータサブセットを使用してベースラインアプローチを実装しました。
この結果から, RMSEが1.3であるトレーニングデータが少なくても, ユーザの行動や嗜好を正確にエミュレートできることがわかった。
本稿では,素早い生成と反復的なユーザプロファイル更新を含むLulsiferの運用パイプラインを示し,その性能をベースライン手法と比較する。
この結果は、現実的な動的フィードバックを生成するLulsiferの能力を検証するとともに、特にトレーニングデータに制限のあるオンライン強化学習推薦システムにおいて、ユーザシミュレーションのためのスケーラブルで調整可能なフレームワークを提供することを示唆している。
関連論文リスト
- Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。
具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。
本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-12-22T12:00:04Z) - LIBER: Lifelong User Behavior Modeling Based on Large Language Models [42.045535303737694]
大規模言語モデルに基づく生涯ユーザ行動モデリング(LIBER)を提案する。
LIBERはHuaweiの音楽レコメンデーションサービスにデプロイされ、ユーザーの再生回数と再生時間の3.01%と7.69%を大幅に改善した。
論文 参考訳(メタデータ) (2024-11-22T03:43:41Z) - Reformulating Conversational Recommender Systems as Tri-Phase Offline Policy Learning [5.453444582931813]
Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)
本稿では,Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)を紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:58:29Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Learning to Learn a Cold-start Sequential Recommender [70.5692886883067]
コールドスタート勧告は、現代のオンラインアプリケーションにおいて緊急の問題である。
メタ学習に基づくコールドスタートシーケンシャルレコメンデーションフレームワークMetaCSRを提案する。
MetaCSRは、通常のユーザの行動から共通のパターンを学ぶ能力を持っている。
論文 参考訳(メタデータ) (2021-10-18T08:11:24Z) - Learning Transferrable Parameters for Long-tailed Sequential User
Behavior Modeling [70.64257515361972]
テールユーザに注力することで、より多くのメリットをもたらし、長いテールの問題に対処できる、と私たちは主張しています。
具体的には、頭部から尾部への知識伝達を容易にするために、勾配アライメントを提案し、敵のトレーニングスキームを採用する。
論文 参考訳(メタデータ) (2020-10-22T03:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。