論文の概要: CUPID: Evaluating Personalized and Contextualized Alignment of LLMs from Interactions
- arxiv url: http://arxiv.org/abs/2508.01674v2
- Date: Thu, 07 Aug 2025 05:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 11:49:27.081671
- Title: CUPID: Evaluating Personalized and Contextualized Alignment of LLMs from Interactions
- Title(参考訳): CUPID:インタラクションによるLLMの個人的・文脈的アライメントの評価
- Authors: Tae Soo Kim, Yoonjoo Lee, Yoonah Park, Jiho Kim, Young-Ho Kim, Juho Kim,
- Abstract要約: CUPIDは、756人の人為的なインタラクションセッション履歴のベンチマークである。
オープンでプロプライエタリな10のLarge Language Model(LLM)を評価する。
我々の研究は、より文脈的にパーソナライズされたインタラクションのためにLLM機能を進化させる必要性を強調します。
- 参考スコア(独自算出の注目度): 39.554239954719876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalization of Large Language Models (LLMs) often assumes users hold static preferences that reflect globally in all tasks. In reality, humans hold dynamic preferences that change depending on the context. As users interact with an LLM in various contexts, they naturally reveal their contextual preferences, which a model must infer and apply in future contexts to ensure alignment. To assess this, we introduce CUPID, a benchmark of 756 human-curated interaction session histories between users and LLM-based chat assistants. In each interaction session, the user provides a request in a specific context and expresses their preference through multi-turn feedback. Given a new user request and prior interaction sessions, our benchmark assesses whether LLMs can infer the preference relevant to this request and generate a response that satisfies this preference. With CUPID, we evaluated 10 open and proprietary LLMs, revealing that state-of-the-art LLMs struggle to infer preferences from multi-turn interactions and fail to discern what previous context is relevant to a new request -- under 50% precision and 65% recall. Our work highlights the need to advance LLM capabilities for more contextually personalized interactions and proposes CUPID as a resource to drive these improvements.
- Abstract(参考訳): LLM(Large Language Models)のパーソナライゼーション(パーソナライズ)は、ユーザがすべてのタスクでグローバルに反映する静的な嗜好を持つと仮定することが多い。
実際には、人間は状況に応じて変化する動的な嗜好を持っている。
ユーザが様々なコンテキストでLLMと対話する際には、モデルが将来的なコンテキストで推論して適用し、アライメントを確保する必要があるコンテキスト的嗜好が自然に明らかになる。
これを評価するために,ユーザとLLMベースのチャットアシスタント間の756の人為的な対話履歴のベンチマークであるCUPIDを紹介する。
各インタラクションセッションでは、ユーザが特定のコンテキストでリクエストを提供し、マルチターンフィードバックを通じて好みを表現します。
新しいユーザリクエストと事前のインタラクションセッションが与えられた場合、当社のベンチマークは、LCMがこのリクエストに関連する好みを推測し、この好みを満たす応答を生成することができるかどうかを評価する。
CUPIDでは、オープンでプロプライエタリな10のLLMを評価し、最先端のLLMはマルチターンインタラクションからの選好を推測するのに苦労し、新しいリクエストに関連する以前のコンテキストを、50%の精度と65%のリコールで識別できないことを明らかにした。
我々の研究は、より文脈的にパーソナライズされたインタラクションのためのLLM機能の向上の必要性を強調し、これらの改善を促進するリソースとしてCUPIDを提案する。
関連論文リスト
- A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。