論文の概要: Do LLMs Recognize Your Preferences? Evaluating Personalized Preference Following in LLMs
- arxiv url: http://arxiv.org/abs/2502.09597v1
- Date: Thu, 13 Feb 2025 18:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:08.073490
- Title: Do LLMs Recognize Your Preferences? Evaluating Personalized Preference Following in LLMs
- Title(参考訳): LLMはあなたの選好を認識するか? : LLMにおけるパーソナライズされた選好の評価
- Authors: Siyan Zhao, Mingyi Hong, Yang Liu, Devamanyu Hazarika, Kaixiang Lin,
- Abstract要約: PrefEvalは,大規模言語モデルのユーザの好みを推測し,記憶し,順守する能力を評価するためのベンチマークである。
PrefEvalは、手作業でキュレートされたユーザ好みと、20のトピックにまたがるクエリペアで構成されている。
- 参考スコア(独自算出の注目度): 42.3733230910726
- License:
- Abstract: Large Language Models (LLMs) are increasingly used as chatbots, yet their ability to personalize responses to user preferences remains limited. We introduce PrefEval, a benchmark for evaluating LLMs' ability to infer, memorize and adhere to user preferences in a long-context conversational setting. PrefEval comprises 3,000 manually curated user preference and query pairs spanning 20 topics. PrefEval contains user personalization or preference information in both explicit and implicit forms, and evaluates LLM performance using a generation and a classification task. With PrefEval, we evaluated the aforementioned preference following capabilities of 10 open-source and proprietary LLMs in multi-session conversations with varying context lengths up to 100k tokens. We benchmark with various prompting, iterative feedback, and retrieval-augmented generation methods. Our benchmarking effort reveals that state-of-the-art LLMs face significant challenges in proactively following users' preferences during conversations. In particular, in zero-shot settings, preference following accuracy falls below 10% at merely 10 turns (~3k tokens) across most evaluated models. Even with advanced prompting and retrieval methods, preference following still deteriorates in long-context conversations. Furthermore, we show that fine-tuning on PrefEval significantly improves performance. We believe PrefEval serves as a valuable resource for measuring, understanding, and enhancing LLMs' preference following abilities, paving the way for personalized conversational agents. Our code and dataset are available at https://prefeval.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)はチャットボットとしてますます使われているが、ユーザの好みに対する応答をパーソナライズする能力は限られている。
PrefEvalは,LLMの長文会話環境におけるユーザの好みを推測し,記憶し,順守する能力を評価するためのベンチマークである。
PrefEvalは、手作業でキュレートされたユーザ好みと、20のトピックにまたがるクエリペアで構成されている。
PrefEvalは、明示型と暗黙型の両方のユーザパーソナライズまたは嗜好情報を含み、世代と分類タスクを用いてLLMのパフォーマンスを評価する。
PrefEvalを用いて,10個のオープンソースおよびプロプライエタリなLDMを,最大100kまでのコンテキスト長の異なるマルチセッション会話で行うことにより,上記の嗜好を評価した。
我々は,様々なプロンプト,反復的フィードバック,検索拡張生成手法を用いてベンチマークを行った。
我々のベンチマークにより、現在最先端のLCMは、会話中のユーザの好みを積極的に追従する上で、重大な課題に直面していることが明らかとなった。
特にゼロショット設定では、精度による嗜好は、ほとんどの評価されたモデルでわずか10ターン (~3kトークン) で10%以下になる。
先進的なプロンプトや検索手法であっても、長文会話における嗜好は依然として悪化している。
さらに,PrefEvalの微調整により性能が大幅に向上することを示す。
我々は、PrefEvalがLLMの好みを計測、理解、強化するための貴重なリソースであり、個人化された会話エージェントの道を開くと信じている。
私たちのコードとデータセットはhttps://prefeval.github.io/.com/で公開されています。
関連論文リスト
- MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Retrieval-Augmented Personalization for Multimodal Large Language Models [53.304699445700926]
本稿では,MLLMのパーソナライズのためのRAP(Retrieval Augmented Personalization)フレームワークを紹介する。
RAPは、外部データベースを更新することで、リアルタイムの概念編集を可能にする。
RAP-MLLMは、追加の微調整なしで無限の視覚概念に一般化することができる。
論文 参考訳(メタデータ) (2024-10-17T09:10:26Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。
有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。
1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:55:02Z) - PMG : Personalized Multimodal Generation with Large Language Models [20.778869086174137]
本稿では,大規模言語モデル(LLM)を用いたパーソナライズされたマルチモーダル生成手法を提案する。
2つのデータセットに関する広範な実験を通じて、その応用を実証し、その性能を検証する。
PMGのパーソナライゼーションはLPIPSで最大8%向上し, 生成精度は向上した。
論文 参考訳(メタデータ) (2024-04-07T03:05:57Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Contextual Biasing of Named-Entities with Large Language Models [12.396054621526643]
本稿では,Large Language Models (LLM) を用いた文脈バイアスについて検討する。
LLMに追加のコンテキスト情報を提供して、自動音声認識(ASR)性能を向上する。
本稿では, バイアスリストと少数ショット例を組み込んだ再描画時に, 微調整を行なわずに, LLMのプロンプトを活用することを提案する。
論文 参考訳(メタデータ) (2023-09-01T20:15:48Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。