論文の概要: Do LLMs Recognize Your Latent Preferences? A Benchmark for Latent Information Discovery in Personalized Interaction
- arxiv url: http://arxiv.org/abs/2510.17132v1
- Date: Mon, 20 Oct 2025 03:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.298113
- Title: Do LLMs Recognize Your Latent Preferences? A Benchmark for Latent Information Discovery in Personalized Interaction
- Title(参考訳): LLMはあなたの潜在的嗜好を認識するか? パーソナライズされたインタラクションにおける潜在的情報発見のためのベンチマーク
- Authors: Ioannis Tsaknakis, Bingqing Song, Shuyu Gan, Dongyeop Kang, Alfredo Garcia, Gaowen Liu, Charles Fleming, Mingyi Hong,
- Abstract要約: パーソナライズされたインタラクションにおける潜伏情報発見を評価するためのベンチマークを導入する。
このベンチマークは、古典的な20の質問ゲーム、パーソナライズされた質問回答、パーソナライズされたテキスト要約という3つの段階的な現実的な設定にまたがっている。
以上の結果から,LLMは対話を通して潜時情報を提示できるが,その成功は文脈によって劇的に変化することが明らかとなった。
- 参考スコア(独自算出の注目度): 40.857161437572465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at producing broadly relevant text, but this generality becomes a limitation when user-specific preferences are required, such as recommending restaurants or planning travel. In these scenarios, users rarely articulate every preference explicitly; instead, much of what they care about remains latent, waiting to be inferred. This raises a fundamental question: Can LLMs uncover and reason about such latent information through conversation? We address this problem by introducing a unified benchmark for evaluating latent information discovery - the ability of LLMs to reveal and utilize hidden user attributes through multi-turn interaction. The benchmark spans three progressively realistic settings: the classic 20 Questions game, Personalized Question Answering, and Personalized Text Summarization. All tasks share a tri-agent framework (User, Assistant, Judge) enabling turn-level evaluation of elicitation and adaptation. Our results reveal that while LLMs can indeed surface latent information through dialogue, their success varies dramatically with context: from 32% to 98%, depending on task complexity, topic, and number of hidden attributes. This benchmark provides the first systematic framework for studying latent information discovery in personalized interaction, highlighting that effective preference inference remains an open frontier for building truly adaptive AI systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、幅広い関係のあるテキストを生成するのに優れていますが、レストランの推薦や旅行の計画など、ユーザ固有の好みが必要な場合、この一般化は制限になります。
これらのシナリオでは、ユーザーはすべての好みを明示的に明示することは滅多にない。
LLMは会話を通じてそのような潜伏した情報を発見し、説明できるだろうか?
本稿では,LLMがマルチターンインタラクションによって隠れたユーザ属性を明らかにし,活用する能力である潜伏情報発見評価のための統一ベンチマークを導入することで,この問題に対処する。
このベンチマークは、古典的な20の質問ゲーム、パーソナライズされた質問回答、パーソナライズされたテキスト要約という3つの段階的な現実的な設定にまたがっている。
すべてのタスクは三段階のフレームワーク(ユーザ、アシスタント、ジャッジ)を共有し、エレケーションと適応のターンレベルの評価を可能にします。
結果から,LLMは対話を通じて潜時情報を提示できるが,その成功状況は,タスクの複雑さ,トピック数,隠れ属性数によって32%から98%と劇的に変化することがわかった。
このベンチマークは、パーソナライズされたインタラクションにおける潜伏情報発見を研究するための最初の体系的なフレームワークを提供する。
関連論文リスト
- KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - CUPID: Evaluating Personalized and Contextualized Alignment of LLMs from Interactions [39.554239954719876]
CUPIDは、756人の人為的なインタラクションセッション履歴のベンチマークである。
オープンでプロプライエタリな10のLarge Language Model(LLM)を評価する。
我々の研究は、より文脈的にパーソナライズされたインタラクションのためにLLM機能を進化させる必要性を強調します。
論文 参考訳(メタデータ) (2025-08-03T09:04:48Z) - RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [133.0641538589466]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - Knowledge-Augmented Large Language Models for Personalized Contextual
Query Suggestion [16.563311988191636]
我々は,Web上での検索と閲覧活動に基づいて,各ユーザを対象としたエンティティ中心の知識ストアを構築した。
この知識ストアは、公的な知識グラフ上の興味と知識のユーザ固有の集約予測のみを生成するため、軽量である。
論文 参考訳(メタデータ) (2023-11-10T01:18:47Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。