論文の概要: LikeBench: Evaluating Subjective Likability in LLMs for Personalization
- arxiv url: http://arxiv.org/abs/2512.13077v1
- Date: Mon, 15 Dec 2025 08:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.581279
- Title: LikeBench: Evaluating Subjective Likability in LLMs for Personalization
- Title(参考訳): LikeBench: パーソナライズのためのLLMにおける主観的自由度の評価
- Authors: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli,
- Abstract要約: 第三の軸であるリキスタビリティは、主観的かつユーザエクスペリエンスの中心でありながら、現在のベンチマークでは過小評価されていない、と私たちは主張する。
マルチセッション動的評価フレームワークであるLikeBenchを紹介する。
DeepSeek R1は、メモリ精度が低い(86%、17の事実/注目)が、Qwen3のメモリ精度が高い(93%、43の事実/注目)にもかかわらず、ライカビリティスコアが28%向上した。
GPT-5のようなSOTAモデルでさえ、略してうまく適応する
- 参考スコア(独自算出の注目度): 11.75597537798083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.
- Abstract(参考訳): パーソナライズされたLLMは、ユーザの事実を記憶し、それらを正しく適用し、時間とともに順応して、ユーザが好む応答を提供するべきです。
既存のLCMパーソナライゼーションベンチマークは、ユーザ情報を正確にリコールし、ダウンストリームタスクに正確に記憶された情報を適用している。
第三の軸であるリキスタビリティは、主観的かつユーザエクスペリエンスの中心でありながら、現在のベンチマークでは過小評価されていない、と私たちは主張する。
マルチセッション動的評価フレームワークであるLikeBenchを導入し,LLMがユーザの好みにどの程度の時間をかけて順応し,より自由度の高い応答を提供できるかを示す。
LikeBenchでは、LLMはシミュレーションされたユーザと会話し、進行中の対話からのみ好みを学ぶ。
相互作用が展開するにつれて、モデルは応答に適応しようとし、各ターンの後、同じシミュレーションユーザーによって7次元にわたる自由度を評価する。
私たちの知識を最大限に活用するために、私たちは初めて複数の診断指標(感情適応、形式整合、知識適応、参照理解、会話の長さ適合、ユーモア適合、コールバック)にリキビリティを分解しました。
シミュレーションされたユーザをより現実的で差別的にするために、LikeBenchは、前作で使われる粗い高低のレーティングに基づく人格ではなく、きめ細かな、心理的に根拠のある記述的な人格を使用する。
DeepSeek R1, メモリ精度が低い(86%, 17件/注目)Qwen3は、Qwen3のメモリ精度が高い(93%, 43件/注目)にもかかわらず、ライカビリティスコアで28%上回った。
GPT-5のようなSOTAモデルでさえ、短い交換ではうまく適応するが、より長くノイズの多い相互作用において限られた堅牢性しか示さない。
関連論文リスト
- PersonaMem-v2: Towards Personalized Intelligence via Learning Implicit User Personas and Agentic Memory [56.81126490418336]
パーソナライゼーションは、AI能力とアライメントの進歩における次のマイルストーンの1つだ。
PersonaMem-v2は300以上のシナリオ、20,000以上のユーザの好み、128kのコンテキストウィンドウで、1,000の現実的なユーザ-チャットボットインタラクションをシミュレートする。
我々はQwen3-4BをトレーニングしてGPT-5を上回り、暗黙のパーソナライゼーションにおいて53%の精度を達成した。
論文 参考訳(メタデータ) (2025-12-07T06:48:23Z) - Do LLMs Recognize Your Latent Preferences? A Benchmark for Latent Information Discovery in Personalized Interaction [40.857161437572465]
パーソナライズされたインタラクションにおける潜伏情報発見を評価するためのベンチマークを導入する。
このベンチマークは、古典的な20の質問ゲーム、パーソナライズされた質問回答、パーソナライズされたテキスト要約という3つの段階的な現実的な設定にまたがっている。
以上の結果から,LLMは対話を通して潜時情報を提示できるが,その成功は文脈によって劇的に変化することが明らかとなった。
論文 参考訳(メタデータ) (2025-10-20T03:58:49Z) - RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [133.0641538589466]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [53.059480071818136]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。