論文の概要: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
- arxiv url: http://arxiv.org/abs/2405.13362v1
- Date: Wed, 22 May 2024 05:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:14:40.783597
- Title: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
- Title(参考訳): Lusifer:オンラインレコメンダシステムのためのLLMベースのユーザシミュレートフィードバック環境
- Authors: Danial Ebrat, Luis Rueda,
- Abstract要約: Lusiferは、シミュレーションされたユーザフィードバックを生成する新しい環境である。
ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。
MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training reinforcement learning-based recommender systems are often hindered by the lack of dynamic and realistic user interactions. Lusifer, a novel environment leveraging Large Language Models (LLMs), addresses this limitation by generating simulated user feedback. It synthesizes user profiles and interaction histories to simulate responses and behaviors toward recommended items. In addition, user profiles are updated after each rating to reflect evolving user characteristics. Using the MovieLens100K dataset as proof of concept, Lusifer demonstrates accurate emulation of user behavior and preferences. This paper presents Lusifer's operational pipeline, including prompt generation and iterative user profile updates. While validating Lusifer's ability to produce realistic dynamic feedback, future research could utilize this environment to train reinforcement learning systems, offering a scalable and adjustable framework for user simulation in online recommender systems.
- Abstract(参考訳): 強化学習に基づく推薦システムは、動的で現実的なユーザーインタラクションの欠如によってしばしば妨げられる。
Lusiferは、LLM(Large Language Models)を利用した新しい環境であり、シミュレーションされたユーザフィードバックを生成することで、この制限に対処する。
ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。
さらに、ユーザプロファイルは、各レーティング後に更新され、進化するユーザ特性を反映する。
MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。
本稿では、即時生成と反復的なユーザプロファイル更新を含むLulsiferの運用パイプラインについて述べる。
Lusiferが現実的な動的フィードバックを生み出す能力を検証する一方で、将来の研究は、この環境を利用して強化学習システムのトレーニングを行い、オンラインレコメンデータシステムにおけるユーザシミュレーションのためのスケーラブルで調整可能なフレームワークを提供する。
関連論文リスト
- Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。
具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。
本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-12-22T12:00:04Z) - LIBER: Lifelong User Behavior Modeling Based on Large Language Models [42.045535303737694]
大規模言語モデルに基づく生涯ユーザ行動モデリング(LIBER)を提案する。
LIBERはHuaweiの音楽レコメンデーションサービスにデプロイされ、ユーザーの再生回数と再生時間の3.01%と7.69%を大幅に改善した。
論文 参考訳(メタデータ) (2024-11-22T03:43:41Z) - Reformulating Conversational Recommender Systems as Tri-Phase Offline Policy Learning [5.453444582931813]
Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)
本稿では,Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)を紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:58:29Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Learning to Learn a Cold-start Sequential Recommender [70.5692886883067]
コールドスタート勧告は、現代のオンラインアプリケーションにおいて緊急の問題である。
メタ学習に基づくコールドスタートシーケンシャルレコメンデーションフレームワークMetaCSRを提案する。
MetaCSRは、通常のユーザの行動から共通のパターンを学ぶ能力を持っている。
論文 参考訳(メタデータ) (2021-10-18T08:11:24Z) - Learning Transferrable Parameters for Long-tailed Sequential User
Behavior Modeling [70.64257515361972]
テールユーザに注力することで、より多くのメリットをもたらし、長いテールの問題に対処できる、と私たちは主張しています。
具体的には、頭部から尾部への知識伝達を容易にするために、勾配アライメントを提案し、敵のトレーニングスキームを採用する。
論文 参考訳(メタデータ) (2020-10-22T03:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。