論文の概要: PREF: Reference-Free Evaluation of Personalised Text Generation in LLMs
- arxiv url: http://arxiv.org/abs/2508.10028v1
- Date: Fri, 08 Aug 2025 14:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.025229
- Title: PREF: Reference-Free Evaluation of Personalised Text Generation in LLMs
- Title(参考訳): PreF: LLMにおけるパーソナライズドテキスト生成の基準フリー評価
- Authors: Xiao Fu, Hossein A. Rahmani, Bin Wu, Jerome Ramos, Emine Yilmaz, Aldo Lipani,
- Abstract要約: ユーザ中心の情報システムにはパーソナライズドテキスト生成が不可欠である。
textbfPersonalized textbfReference-free textbfEvaluation textbfFrameworkを紹介する。
- 参考スコア(独自算出の注目度): 32.27940625341602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalised text generation is essential for user-centric information systems, yet most evaluation methods overlook the individuality of users. We introduce \textbf{PREF}, a \textbf{P}ersonalised \textbf{R}eference-free \textbf{E}valuation \textbf{F}ramework that jointly measures general output quality and user-specific alignment without requiring gold personalised references. PREF operates in a three-step pipeline: (1) a coverage stage uses a large language model (LLM) to generate a comprehensive, query-specific guideline covering universal criteria such as factuality, coherence, and completeness; (2) a preference stage re-ranks and selectively augments these factors using the target user's profile, stated or inferred preferences, and context, producing a personalised evaluation rubric; and (3) a scoring stage applies an LLM judge to rate candidate answers against this rubric, ensuring baseline adequacy while capturing subjective priorities. This separation of coverage from preference improves robustness, transparency, and reusability, and allows smaller models to approximate the personalised quality of larger ones. Experiments on the PrefEval benchmark, including implicit preference-following tasks, show that PREF achieves higher accuracy, better calibration, and closer alignment with human judgments than strong baselines. By enabling scalable, interpretable, and user-aligned evaluation, PREF lays the groundwork for more reliable assessment and development of personalised language generation systems.
- Abstract(参考訳): ユーザ中心の情報システムにはパーソナライズされたテキスト生成が不可欠であるが,ほとんどの評価手法はユーザの個性を見落としている。
我々は、金の個人化参照を必要とせずに、一般的な出力品質とユーザ固有のアライメントを共同で測定する、textbf{PREF}, a \textbf{P}ersonalized \textbf{R}eference-free \textbf{E}valuation \textbf{F}rameworkを紹介する。
PreF は,(1) 大規模言語モデル (LLM) を用いて,事実性,一貫性,完全性などの普遍的な基準を包括的に網羅したクエリ固有のガイドラインを生成する,(2) 選好段階は,対象ユーザのプロファイル,説明又は推測された選好,文脈を用いて,これらの要因を選択的に拡張し,パーソナライズされた評価ルーブリックを生成する,(3) 評価段階は,このルーブリックに対して候補者の回答を評価するために LLM 判断を適用し,主観的優先順位を捉えながらベースラインの適性を保証する,という3段階のパイプラインで機能する。
好みからカバー範囲を分離することで、堅牢性、透明性、再利用性が向上し、より小さなモデルでより大きなモデルのパーソナライズされた品質を近似することができる。
PrefEvalベンチマークの実験では、暗黙の選好フォロータスクを含む実験により、PrefFは強い基準線よりも高い精度、キャリブレーション、人間の判断との密接な一致を実現していることが示された。
スケーラブルで解釈可能なユーザアライメント評価を実現することにより、PreFはパーソナライズされた言語生成システムの信頼性を高め、開発するための基盤となる。
関連論文リスト
- P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling [66.55381105691818]
P-GenRM(Personalized Generative Reward Model)を提案する。
P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。
さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
論文 参考訳(メタデータ) (2026-02-12T16:07:22Z) - PersoDPO: Scalable Preference Optimization for Instruction-Adherent, Persona-Grounded Dialogue via Multi-LLM Evaluation [20.228114552545772]
PersoDPOはスケーラブルな選好最適化フレームワークである。
一貫性とパーソナライゼーションを目標とした評価指標と,長さ形式のコンプライアンス機能を統合する。
FoCusデータセットの実験は、PersoDPOフレームワークで微調整されたオープンソースの言語モデルが、強力なオープンソースベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-04T12:34:55Z) - PreferThinker: Reasoning-based Personalized Image Preference Assessment [83.66114370585976]
推論に基づくパーソナライズされた画像嗜好評価フレームワークを提案する。
まず、ユーザーの好みプロファイルを参照画像から予測する。
次に、解釈可能で多次元のスコアと候補画像の評価を提供する。
論文 参考訳(メタデータ) (2025-11-01T16:19:51Z) - POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - PREFINE: Personalized Story Generation via Simulated User Critics and User-Specific Rubric Generation [2.8324853634693614]
PreFINEは、Crytique-and-Refineパラダイムをパーソナライズに拡張する新しいフレームワークである。
PreFINEは、ユーザのインタラクション履歴から擬似ユーザエージェントを構築し、ユーザ固有のルーリックを生成する。
本手法は,対話システムや教育,レコメンデーションなどの幅広い応用において,効率的なパーソナライズを可能にする可能性を持っている。
論文 参考訳(メタデータ) (2025-09-16T16:39:40Z) - LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences [91.13704541413551]
LOTUSは詳細なキャプションを評価するためのリーダーボードである。
キャプションの品質など、様々な側面を包括的に評価する。
多様なユーザの嗜好に基準を合わせることで、嗜好指向の評価を可能にする。
論文 参考訳(メタデータ) (2025-07-25T15:12:42Z) - From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment [41.96246165999026]
大規模言語モデル(LLM)は、伝統的にワンサイズフィットのアプローチによって整列されてきた。
本稿では,LLMのスケーラブルなパーソナライズのための包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T17:41:46Z) - Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation [21.769969074938142]
EXP3RTは、ユーザとアイテムレビューに含まれるリッチな好み情報を活用するために設計された、LLMベースの新しいレコメンデータである。
詳細なステップバイステップの推論と予測された評価を生成する。
実験の結果、EXP3RTは評価予測と候補項目の双方において、トップkレコメンデーションにおいて既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-12T16:39:03Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。