論文の概要: Personalized Benchmarking: Evaluating LLMs by Individual Preferences
- arxiv url: http://arxiv.org/abs/2604.18943v1
- Date: Tue, 21 Apr 2026 00:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.554151
- Title: Personalized Benchmarking: Evaluating LLMs by Individual Preferences
- Title(参考訳): パーソナライズされたベンチマーク:個人選好によるLCMの評価
- Authors: Cristina Garbacea, Heran Wang, Chenhao Tan,
- Abstract要約: 現在のベンチマークでは、総合評価を計算するために、すべてのユーザーの平均的な嗜好が計算されている。
ユーザーは様々な状況で好みが変わるので、個人のニーズに応じてモデルをランク付けするパーソナライズされたベンチマークを要求します。
ELO評価とBradley-Terry係数を用いて115名のアクティブアリーナユーザを対象にパーソナライズされたモデルランキングを算出する。
- 参考スコア(独自算出の注目度): 16.446687355628566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise in capabilities of large language models (LLMs) and their deployment in real-world tasks, evaluating LLM alignment with human preferences has become an important challenge. Current benchmarks average preferences across all users to compute aggregate ratings, overlooking individual user preferences when establishing model rankings. Since users have varying preferences in different contexts, we call for personalized LLM benchmarks that rank models according to individual needs. We compute personalized model rankings using ELO ratings and Bradley-Terry coefficients for 115 active Chatbot Arena users and analyze how user query characteristics (topics and writing style) relate to LLM ranking variations. We demonstrate that individual rankings of LLM models diverge dramatically from aggregate LLM rankings, with Bradley-Terry correlations averaging only $ρ= 0.04$ (57\% of users show near-zero or negative correlation) and ELO ratings showing moderate correlation ($ρ= 0.43$). Through topic modeling and style analysis, we find users exhibit substantial heterogeneity in topical interests and communication styles, influencing their model preferences. We further show that a compact combination of topic and style features provides a useful feature space for predicting user-specific model rankings. Our results provide strong quantitative evidence that aggregate benchmarks fail to capture individual preferences for most users, and highlight the importance of developing personalized benchmarks that rank LLM models according to individual user preferences.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力の向上と実際のタスクへの展開により、LLMと人間の嗜好の整合性を評価することが重要な課題となっている。
現在のベンチマークでは、モデルランキングを確立する際の個々のユーザの選好を見越して、集計された評価を計算するために、すべてのユーザの平均的な選好が評価されている。
ユーザの好みは様々であるため、個人のニーズに応じてモデルをランク付けするパーソナライズされたLCMベンチマークが求められます。
ELOレーティングとBradley-Terry係数を用いて115人のChatbot Arenaユーザに対してパーソナライズされたモデルランキングを計算し、LLMランキングのバリエーションとユーザクエリ特性(トピックと書き込みスタイル)がどのように関係しているかを分析する。
LLMモデルの個々のランキングは、合計LLMランキングから劇的にばらつき、Bradley-Terry相関は平均$ρ=0.04$(57%のユーザがほぼゼロまたは負の相関を示す)とELO相関(ρ=0.43$)のみである。
トピックモデリングとスタイル分析により、利用者はトピックの興味やコミュニケーションスタイルにかなりの異質性を示し、モデルの嗜好に影響を及ぼす。
さらに、トピックとスタイルの特徴をコンパクトに組み合わせることで、ユーザ固有のモデルランキングを予測するのに有用な特徴空間が提供されることを示す。
この結果から,集約ベンチマークがほとんどのユーザの個人の嗜好を把握できないという強い定量的証拠が得られ,個人ユーザの嗜好に応じてLLMモデルをランク付けするパーソナライズされたベンチマークを開発することの重要性が浮き彫りになった。
関連論文リスト
- Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。
この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文 参考訳(メタデータ) (2026-03-04T15:42:43Z) - Investigating Thematic Patterns and User Preferences in LLM Interactions using BERTopic [4.087884819027264]
本研究では,Lumsys-chat-1mデータセットに対してBERTopicを適用した。
主な目的は、これらの会話におけるテーマパターンを明らかにし、ユーザの好みとの関係を調べることである。
トピックとモデル嗜好の関係を分析し,モデルとトピックのアライメントの傾向を明らかにした。
論文 参考訳(メタデータ) (2025-10-08T21:13:44Z) - HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。
DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。
実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:53:26Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。