Fugu-MT 論文翻訳(概要): Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems

論文の概要: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems

arxiv url: http://arxiv.org/abs/2405.13362v1
Date: Wed, 22 May 2024 05:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 01:14:40.783597
Title: Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems
Title（参考訳）: Lusifer:オンラインレコメンダシステムのためのLLMベースのユーザシミュレートフィードバック環境
Authors: Danial Ebrat, Luis Rueda,
Abstract要約: Lusiferは、シミュレーションされたユーザフィードバックを生成する新しい環境である。ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。 MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training reinforcement learning-based recommender systems are often hindered by the lack of dynamic and realistic user interactions. Lusifer, a novel environment leveraging Large Language Models (LLMs), addresses this limitation by generating simulated user feedback. It synthesizes user profiles and interaction histories to simulate responses and behaviors toward recommended items. In addition, user profiles are updated after each rating to reflect evolving user characteristics. Using the MovieLens100K dataset as proof of concept, Lusifer demonstrates accurate emulation of user behavior and preferences. This paper presents Lusifer's operational pipeline, including prompt generation and iterative user profile updates. While validating Lusifer's ability to produce realistic dynamic feedback, future research could utilize this environment to train reinforcement learning systems, offering a scalable and adjustable framework for user simulation in online recommender systems.
Abstract（参考訳）: 強化学習に基づく推薦システムは、動的で現実的なユーザーインタラクションの欠如によってしばしば妨げられる。 Lusiferは、LLM(Large Language Models)を利用した新しい環境であり、シミュレーションされたユーザフィードバックを生成することで、この制限に対処する。ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。さらに、ユーザプロファイルは、各レーティング後に更新され、進化するユーザ特性を反映する。 MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。本稿では、即時生成と反復的なユーザプロファイル更新を含むLulsiferの運用パイプラインについて述べる。 Lusiferが現実的な動的フィードバックを生み出す能力を検証する一方で、将来の研究は、この環境を利用して強化学習システムのトレーニングを行い、オンラインレコメンデータシステムにおけるユーザシミュレーションのためのスケーラブルで調整可能なフレームワークを提供する。

関連論文リスト

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文参考訳（メタデータ） (2026-03-04T15:42:43Z)
Personas within Parameters: Fine-Tuning Small Language Models with Low-Rank Adapters to Mimic User Behaviors [1.8352113484137629]
正確なレコメンデーションモデルを開発する上での長年の課題は、主にユーザインタラクションの複雑な性質のために、ユーザの振る舞いをシミュレートすることである。本研究では, 凍結したLarge Language Models (LLMs) を用いてロバストなユーザ表現を抽出し, 微調整小言語モデル (SLMs) を用いたコスト効率, 資源効率のよいユーザエージェントをシミュレートする手法を提案する。提案手法の有効性を実証し,本手法を用いて開発したユーザエージェントが,オフラインメトリクスとレコメンデータシステムの実環境性能のギャップを埋める可能性を示した。
論文参考訳（メタデータ） (2025-08-18T22:14:57Z)
Learning Pluralistic User Preferences through Reinforcement Learning Fine-tuned Summaries [13.187789731783095]
本稿では,各ユーザの好み,特徴,過去の会話をテキストベースで要約する新しいフレームワークを提案する。これらの要約は報酬モデルを定義し、各ユーザが評価する応答のタイプについてパーソナライズされた予測を可能にする。提案手法は,新規ユーザや多様な会話トピックに対して堅牢であることを示す。
論文参考訳（メタデータ） (2025-07-17T23:48:51Z)
PUB: An LLM-Enhanced Personality-Driven User Behaviour Simulator for Recommender System Evaluation [9.841963696576546]
Personality-driven User Behaviour Simulator (PUB)は、パーソナライズされたユーザの振る舞いをモデル化するために、Big Fiveのパーソナリティ特性を統合している。 PUBは、行動ログ(例えば、評価、レビュー)とアイテムメタデータからユーザーの個性を動的に推論し、その後、実際のデータに対する統計的忠実性を保存するための合成相互作用を生成する。 Amazonレビューデータセットの実験では、PUBが生成したログは実際のユーザの行動と密接に一致し、パーソナリティ特性とレコメンデーション結果の間に有意義な関連性を明らかにする。
論文参考訳（メタデータ） (2025-06-05T01:57:36Z)
Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文参考訳（メタデータ） (2025-05-02T04:01:31Z)
Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。 LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。 2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文参考訳（メタデータ） (2025-04-11T20:01:25Z)
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Adaptive Self-Supervised Learning Strategies for Dynamic On-Device LLM Personalization [3.1944843830667766]
大規模言語モデル(LLM)は私たちがテクノロジと対話する方法に革命をもたらしたが、個々のユーザの好みに対するパーソナライズは依然として大きな課題である。本稿では,LSMを動的にパーソナライズするために自己指導型学習技術を利用する適応型自己監督学習戦略(ASLS)を提案する。
論文参考訳（メタデータ） (2024-09-25T14:35:06Z)
WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [28.317315761271804]
WildFeedbackは、リアルタイムのin-situユーザーインタラクションを活用して、より正確に人間の価値観を反映した好みデータセットを作成する新しいフレームワークである。我々は,このフレームワークをユーザとLLMの会話の大規模なコーパスに適用し,実際のユーザの好みを反映したリッチな嗜好データセットを実現する。実験により,WildFeedbackを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることが示された。
論文参考訳（メタデータ） (2024-08-28T05:53:46Z)
Flexible Generation of Preference Data for Recommendation Analysis [1.384948712833979]
HYDRAは3つの主要な要素によって駆動される新しいデータ生成モデルである。我々は、よく知られたベンチマークデータセットに対する広範な実験を通して、HYDRAの有効性を実証する。
論文参考訳（メタデータ） (2024-07-23T15:53:17Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Look into the Future: Deep Contextualized Sequential Recommendation [28.726897673576865]
我々は、Look into the Future(LIFT)と呼ばれる、シーケンシャルなレコメンデーションの新しいフレームワークを提案する。 LIFTはシーケンシャルなレコメンデーションのコンテキストを構築し、活用する。本実験では,クリックスルー率予測および評価予測タスクにおいて,LIFTは大幅な性能向上を実現している。
論文参考訳（メタデータ） (2024-05-23T09:34:28Z)
A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。 LLM(Large Language Models)は、計算能力の新たな時代を迎えている。ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-13T03:02:56Z)
Learning Social Graph for Inactive User Recommendation [50.090904659803854]
LSIRはソーシャルレコメンデーションのための最適なソーシャルグラフ構造を学習する。実世界のデータセットの実験では、LSIRはNDCGで最大129.58%の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-05-08T03:40:36Z)
How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。そこで我々はSimpleUserSimを提案する。
論文参考訳（メタデータ） (2024-03-25T04:21:06Z)
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。 LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文参考訳（メタデータ） (2023-05-22T15:12:43Z)
Sim2Rec: A Simulator-based Decision-making Approach to Optimize Real-World Long-term User Engagement in Sequential Recommender Systems [43.31078296862647]
逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は強化学習(RL)に適している RLには欠点があり、特に探索には多数のオンラインサンプルが必要である。シミュレーション・ツー・レコメンデーション(Sim2Rec)というシミュレーターベースの推奨ポリシートレーニング手法を提案する。
論文参考訳（メタデータ） (2023-05-03T19:21:25Z)
PUNR: Pre-training with User Behavior Modeling for News Recommendation [26.349183393252115]
ニュースレコメンデーションは、ユーザーの行動に基づいてクリック行動を予測することを目的としている。ユーザの表現を効果的にモデル化する方法が、望ましいニュースを推奨する鍵である。本研究では,ユーザ行動マスキングとユーザ行動生成という2つのタスクを備えた教師なし事前学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-04-25T08:03:52Z)
Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文参考訳（メタデータ） (2022-11-17T19:00:24Z)
Simulating Bandit Learning from User Feedback for Extractive Question Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文参考訳（メタデータ） (2022-03-18T17:47:58Z)
Intent Contrastive Learning for Sequential Recommendation [86.54439927038968]
ユーザの意図を表現するために潜伏変数を導入し,クラスタリングにより潜伏変数の分布関数を学習する。我々は,学習意図を対照的なSSLによってSRモデルに活用し,シーケンスのビューとそれに対応するインテントとの一致を最大化することを提案する。 4つの実世界のデータセットで実施された実験は、提案した学習パラダイムの優位性を示している。
論文参考訳（メタデータ） (2022-02-05T09:24:13Z)
Improving Conversational Question Answering Systems after Deployment using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文参考訳（メタデータ） (2020-11-01T19:50:34Z)
User Memory Reasoning for Conversational Recommendation [68.34475157544246]
本研究では,ユーザの過去の(オフライン)好みと現在の(オンライン)要求を動的に管理する対話レコメンデーションモデルについて検討する。 MGConvRexはユーザメモリ上の人間レベルの推論をキャプチャし、推奨のためにゼロショット(コールドスタート)推論のためにユーザのトレーニング/テストセットを分離する。
論文参考訳（メタデータ） (2020-05-30T05:29:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。