論文の概要: Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions
- arxiv url: http://arxiv.org/abs/2603.04191v1
- Date: Wed, 04 Mar 2026 15:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.378883
- Title: Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions
- Title(参考訳): 現実的パーソナライズに向けて--パーソナライズされたユーザ-LLMインタラクションにおける長軸優先性の評価
- Authors: Qianyun Guo, Yibo Li, Yue Liu, Bryan Hooi,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。
この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
- 参考スコア(独自算出の注目度): 50.70965714314064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly serving as personal assistants, where users share complex and diverse preferences over extended interactions. However, assessing how well LLMs can follow these preferences in realistic, long-term situations remains underexplored. This work proposes RealPref, a benchmark for evaluating realistic preference-following in personalized user-LLM interactions. RealPref features 100 user profiles, 1300 personalized preferences, four types of preference expression (ranging from explicit to implicit), and long-horizon interaction histories. It includes three types of test questions (multiple-choice, true-or-false, and open-ended), with detailed rubrics for LLM-as-a-judge evaluation. Results indicate that LLM performance significantly drops as context length grows and preference expression becomes more implicit, and that generalizing user preference understanding to unseen scenarios poses further challenges. RealPref and these findings provide a foundation for future research to develop user-aware LLM assistants that better adapt to individual needs. The code is available at https://github.com/GG14127/RealPref.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。
しかし、現実的な長期的な状況において、LLMがこれらの嗜好をどれだけうまく追えるかを評価することは、まだ過小評価されていない。
この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
RealPrefには100のユーザープロフィール、1300のパーソナライズされた好み、4種類の好み表現(明示的なものから暗黙的なものまで)、長い水平相互作用履歴がある。
これには、3種類のテスト質問(複数選択、真または偽、オープンエンド)と、LSM-as-a-judge評価のための詳細なルーリックが含まれている。
その結果,LLMの性能は,文脈長の増大と嗜好表現の暗黙化によって著しく低下し,未確認シナリオに対するユーザの嗜好理解の一般化がさらなる課題となることが示された。
RealPrefとこれらの発見は、個人のニーズに適応するユーザ対応LLMアシスタントを開発するための将来の研究基盤を提供する。
コードはhttps://github.com/GG14127/RealPref.comで公開されている。
関連論文リスト
- ALPBench: A Benchmark for Attribution-level Long-term Personal Behavior Understanding [53.88804678012327]
ALPBenchは属性レベルの長期的個人行動理解のためのベンチマークである。
ユーザと興味のある属性の組み合わせを予測し、基幹構造評価を可能にする。
ユーザの明示的に表現された要求よりも、長期的な歴史的行動の好みをモデル化する。
論文 参考訳(メタデータ) (2026-02-03T03:32:16Z) - Do LLMs Recognize Your Latent Preferences? A Benchmark for Latent Information Discovery in Personalized Interaction [40.857161437572465]
パーソナライズされたインタラクションにおける潜伏情報発見を評価するためのベンチマークを導入する。
このベンチマークは、古典的な20の質問ゲーム、パーソナライズされた質問回答、パーソナライズされたテキスト要約という3つの段階的な現実的な設定にまたがっている。
以上の結果から,LLMは対話を通して潜時情報を提示できるが,その成功は文脈によって劇的に変化することが明らかとなった。
論文 参考訳(メタデータ) (2025-10-20T03:58:49Z) - MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces [97.62557395494962]
GPT-4o、Claude、Llamaを30のインターフェースでベンチマークするためにクラウドソーシングを使用します。
以上の結果から,MLLMは特定の次元において人間の嗜好を近似するが,他の次元では異なってしまうことが示唆された。
論文 参考訳(メタデータ) (2025-10-09T20:00:41Z) - CUPID: Evaluating Personalized and Contextualized Alignment of LLMs from Interactions [39.554239954719876]
CUPIDは、756人の人為的なインタラクションセッション履歴のベンチマークである。
オープンでプロプライエタリな10のLarge Language Model(LLM)を評価する。
我々の研究は、より文脈的にパーソナライズされたインタラクションのためにLLM機能を進化させる必要性を強調します。
論文 参考訳(メタデータ) (2025-08-03T09:04:48Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [53.059480071818136]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。