論文の概要: SimUSER: Simulating User Behavior with Large Language Models for Recommender System Evaluation
- arxiv url: http://arxiv.org/abs/2504.12722v1
- Date: Thu, 17 Apr 2025 07:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:35.207076
- Title: SimUSER: Simulating User Behavior with Large Language Models for Recommender System Evaluation
- Title(参考訳): SimUSER:Recommenderシステム評価のための大規模言語モデルによるユーザ行動のシミュレーション
- Authors: Nicolas Bougie, Narimasa Watanabe,
- Abstract要約: 信頼性と費用対効果を両立させるエージェントフレームワークであるSimを紹介した。
Simは、歴史的データから自己一貫性のあるペルソナを識別し、ユニークな背景と個性を持つユーザープロフィールを豊かにする。
我々は,サムネイルがクリック率,露出効果,レビューがユーザエンゲージメントに与える影響を調べる実験を行った。
- 参考スコア(独自算出の注目度): 1.2430809884830318
- License:
- Abstract: Recommender systems play a central role in numerous real-life applications, yet evaluating their performance remains a significant challenge due to the gap between offline metrics and online behaviors. Given the scarcity and limits (e.g., privacy issues) of real user data, we introduce SimUSER, an agent framework that serves as believable and cost-effective human proxies. SimUSER first identifies self-consistent personas from historical data, enriching user profiles with unique backgrounds and personalities. Then, central to this evaluation are users equipped with persona, memory, perception, and brain modules, engaging in interactions with the recommender system. SimUSER exhibits closer alignment with genuine humans than prior work, both at micro and macro levels. Additionally, we conduct insightful experiments to explore the effects of thumbnails on click rates, the exposure effect, and the impact of reviews on user engagement. Finally, we refine recommender system parameters based on offline A/B test results, resulting in improved user engagement in the real world.
- Abstract(参考訳): 多くのリアルタイムアプリケーションにおいて、レコメンダシステムは中心的な役割を果たすが、オフラインメトリクスとオンラインの振る舞いのギャップがあるため、パフォーマンスの評価は依然として大きな課題である。
実際のユーザデータの不足や制限(プライバシー問題など)を考えると、私たちは、信頼できる費用対効果のあるヒューマンプロキシとして機能するエージェントフレームワークであるSimUSERを紹介します。
SimUSERはまず、歴史的データから自己一貫性のあるペルソナを識別し、ユニークな背景と個性を持つユーザープロフィールを豊かにする。
そして、この評価の中心となるのは、ペルソナ、記憶、知覚、脳モジュールを備え、レコメンデータシステムとのインタラクションに従事しているユーザである。
SimUSERは、マイクロレベルとマクロレベルの両方において、以前の作業よりも本物の人間と密接な関係を示す。
さらに,サムネイルがクリック率,露出効果,レビューがユーザエンゲージメントに与える影響について,洞察力のある実験を行った。
最後に、オフラインのA/Bテスト結果に基づいてリコメンデータシステムパラメータを精査し、実世界でのユーザエンゲージメントを改善した。
関連論文リスト
- CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry [55.64992650205645]
大規模言語モデルを用いたクリエーターシミュレーションエージェントであるCreAgentを提案する。
ゲーム理論の信念機構と高速でスローな思考フレームワークを取り入れることで、CreAgentはクリエーターの振る舞いを効果的にシミュレートする。
私たちの信頼性検証実験は、CreAgentが現実世界のプラットフォームとクリエーターの行動とよく一致していることを示している。
論文 参考訳(メタデータ) (2025-02-11T07:09:49Z) - Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Stop Playing the Guessing Game! Target-free User Simulation for Evaluating Conversational Recommender Systems [15.481944998961847]
PEPPERは、実際のユーザインタラクション履歴とレビューから構築された、ターゲットフリーなユーザシミュレータによる評価プロトコルである。
PEPPERは、単純な推測ゲームに陥ることなく、現実的なユーザ-CRS対話を可能にする。
PEPPERは、CRSの嗜好誘発能力を包括的に評価するための詳細な尺度を提示する。
論文 参考訳(メタデータ) (2024-11-25T07:36:20Z) - MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants [64.41695570145673]
生成したユーザメッセージから信頼性の高い質問や回答(QA)を自動的に構築するベイズシミュレータであるMemSimを提案する。
MemSimに基づいて、MemDailyという名前の日常生活シナリオのデータセットを生成し、我々のアプローチの有効性を評価するための広範な実験を行う。
論文 参考訳(メタデータ) (2024-09-30T10:19:04Z) - Algorithmic Drift: A Simulation Framework to Study the Effects of Recommender Systems on User Preferences [7.552217586057245]
本稿では,長期シナリオにおけるユーザ-リコメンダ間のインタラクションを模倣するシミュレーションフレームワークを提案する。
本稿では,ユーザの嗜好に対するアルゴリズムの影響を定量化する2つの新しい指標について紹介する。
論文 参考訳(メタデータ) (2024-09-24T21:54:22Z) - Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems [0.0]
強化学習(RL)レコメンデータシステムは、現実のシナリオにおけるユーザの好みの性質を変えることなく、流体をキャプチャできない静的データセットに依存することが多い。
LLMベースのシミュレーション環境であるLulsiferを導入し、RLベースのレコメンデータトレーニングのための動的で現実的なユーザフィードバックを生成する。
論文 参考訳(メタデータ) (2024-05-22T05:43:15Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Measuring Recommender System Effects with Simulated Users [19.09065424910035]
人気バイアスとフィルターバブルは、最もよく研究されているシステムバイアスの2つです。
各種ユーザ行動下におけるレコメンダーシステムの影響を測定するためのシミュレーションフレームワークを提供します。
論文 参考訳(メタデータ) (2021-01-12T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。