論文の概要: Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale
- arxiv url: http://arxiv.org/abs/2504.14225v1
- Date: Sat, 19 Apr 2025 08:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:05:45.586833
- Title: Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale
- Title(参考訳): Me, Respond to Me: 動的ユーザプロファイリングのためのLLMのベンチマークと, スケールでのパーソナライズされた応答
- Authors: Bowen Jiang, Zhuoqun Hao, Young-Min Cho, Bryan Li, Yuan Yuan, Sihao Chen, Lyle Ungar, Camillo J. Taylor, Dan Roth,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
- 参考スコア(独自算出の注目度): 51.9706400130481
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have emerged as personalized assistants for users across a wide range of tasks -- from offering writing support to delivering tailored recommendations or consultations. Over time, the interaction history between a user and an LLM can provide extensive information about an individual's traits and preferences. However, open questions remain on how well LLMs today can effectively leverage such history to (1) internalize the user's inherent traits and preferences, (2) track how the user profiling and preferences evolve over time, and (3) generate personalized responses accordingly in new scenarios. In this work, we introduce the PERSONAMEM benchmark. PERSONAMEM features curated user profiles with over 180 simulated user-LLM interaction histories, each containing up to 60 sessions of multi-turn conversations across 15 real-world tasks that require personalization. Given an in-situ user query, i.e. query issued by the user from the first-person perspective, we evaluate LLM chatbots' ability to identify the most suitable response according to the current state of the user's profile. We observe that current LLMs still struggle to recognize the dynamic evolution in users' profiles over time through direct prompting approaches. As a consequence, LLMs often fail to deliver responses that align with users' current situations and preferences, with frontier models such as GPT-4.1, o4-mini, GPT-4.5, o1, or Gemini-2.0 achieving only around 50% overall accuracy, suggesting room for improvement. We hope that PERSONAMEM, along with the user profile and conversation simulation pipeline, can facilitate future research in the development of truly user-aware chatbots. Code and data are available at github.com/bowen-upenn/PersonaMem.
- Abstract(参考訳): 大規模言語モデル(LLM)は、書き込みサポートの提供から、カスタマイズされたレコメンデーションやコンサルティングの提供に至るまで、幅広いタスクにわたるユーザのためのパーソナライズされたアシスタントとして登場した。
時間とともに、ユーザとLLM間のインタラクション履歴は、個人の特性や好みに関する広範な情報を提供することができる。
しかし,現在LLMは,(1)ユーザの固有の特性や嗜好を内在化し,(2)ユーザのプロファイリングや嗜好が時間とともにどのように発展していくか,(3)新たなシナリオに応じてパーソナライズされた応答を生成するために,その歴史を効果的に活用できるのか,という疑問が残っている。
本稿ではPERSONAMEMベンチマークを紹介する。
PERSONAMEMは180以上のシミュレーションされたユーザ-LLMインタラクション履歴を持つ、キュレートされたユーザプロファイルを備えており、それぞれがパーソナライズを必要とする15の現実世界のタスクに対して、最大60セッションのマルチターン会話を含む。
LLMチャットボットがユーザプロファイルの現在状況に応じて最適な応答を識別する能力を評価する。
我々は、現在のLLMが、直接的なプロンプトアプローチを通じて、ユーザのプロファイルの動的な進化を認識するのに依然として苦労していることを観察する。
その結果、LCMはユーザーの現在の状況や好みに合わせた反応を得られず、GPT-4.1、o4-mini、GPT-4.5、o1、Gemini-2.0といったフロンティアモデルでは全体の50%の精度しか達成できず、改善の余地が示唆されている。
PERSONAMEMとユーザプロファイルと会話シミュレーションパイプラインは、真にユーザを意識したチャットボットの開発において、今後の研究を促進することを願っている。
コードとデータはgithub.com/bowen-upenn/PersonaMemで入手できる。
関連論文リスト
- UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-26T14:34:00Z) - Simulating User Diversity in Task-Oriented Dialogue Systems using Large Language Models [11.708400514900053]
我々は、ユーザプロファイルの不均一なベースを生成するために、2つのプロプライエタリなLarge Language Model(LLM)を採用している。
これらのシミュレーションに固有の多様性,一貫性,潜在的なバイアスを評価するために,LLMが生成したユーザプロファイルを詳細に解析する。
GPT-o1は、多くのユーザ属性に対してより異質なユーザ分布を生成するのに対し、GPT-4oはより歪んだユーザ属性を生成する。
論文 参考訳(メタデータ) (2025-02-18T12:20:16Z) - Optimizing Data Delivery: Insights from User Preferences on Visuals, Tables, and Text [59.68239795065175]
ユーザが質問を提示するユーザスタディを実施し、何を見たいのかを尋ねます。
ユーザの個人的特性が、彼らが好むデータ出力に影響を与えることを確認するために、このデータを使用します。
論文 参考訳(メタデータ) (2024-11-12T00:24:31Z) - RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models [53.304699445700926]
MLLMのパーソナライズのための検索強化パーソナライズフレームワークについて紹介する。
一般的なMLLMから始まり、3つのステップでパーソナライズされたアシスタントにします。
大規模データセットを事前トレーニングすることにより、RAP-MLLMは、追加の微調整なしで無限の視覚概念に一般化することができる。
論文 参考訳(メタデータ) (2024-10-17T09:10:26Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - User-LLM: Efficient LLM Contextualization with User Embeddings [23.226164112909643]
User-LLMは、ユーザ埋め込みを利用して、大きな言語モデルとユーザ履歴の相互作用を直接コンテキスト化する新しいフレームワークである。
提案手法では,ユーザタイムラインを直接埋め込みとして表現することで,最大78.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T08:03:27Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - A Cooperative Memory Network for Personalized Task-oriented Dialogue
Systems with Incomplete User Profiles [55.951126447217526]
ユーザプロファイルの完成を前提とせず,タスク指向対話システムについて検討する。
ユーザプロファイルを徐々に強化する新しいメカニズムを持つ協調記憶ネットワーク(CoMemNN)を提案する。
CoMemNNは、ユーザープロファイルを効果的に強化することができ、応答選択精度の点で3.6%の改善につながります。
論文 参考訳(メタデータ) (2021-02-16T18:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。