論文の概要: PREF: Reference-Free Evaluation of Personalised Text Generation in LLMs
- arxiv url: http://arxiv.org/abs/2508.10028v1
- Date: Fri, 08 Aug 2025 14:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.025229
- Title: PREF: Reference-Free Evaluation of Personalised Text Generation in LLMs
- Title(参考訳): PreF: LLMにおけるパーソナライズドテキスト生成の基準フリー評価
- Authors: Xiao Fu, Hossein A. Rahmani, Bin Wu, Jerome Ramos, Emine Yilmaz, Aldo Lipani,
- Abstract要約: ユーザ中心の情報システムにはパーソナライズドテキスト生成が不可欠である。
textbfPersonalized textbfReference-free textbfEvaluation textbfFrameworkを紹介する。
- 参考スコア(独自算出の注目度): 32.27940625341602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalised text generation is essential for user-centric information systems, yet most evaluation methods overlook the individuality of users. We introduce \textbf{PREF}, a \textbf{P}ersonalised \textbf{R}eference-free \textbf{E}valuation \textbf{F}ramework that jointly measures general output quality and user-specific alignment without requiring gold personalised references. PREF operates in a three-step pipeline: (1) a coverage stage uses a large language model (LLM) to generate a comprehensive, query-specific guideline covering universal criteria such as factuality, coherence, and completeness; (2) a preference stage re-ranks and selectively augments these factors using the target user's profile, stated or inferred preferences, and context, producing a personalised evaluation rubric; and (3) a scoring stage applies an LLM judge to rate candidate answers against this rubric, ensuring baseline adequacy while capturing subjective priorities. This separation of coverage from preference improves robustness, transparency, and reusability, and allows smaller models to approximate the personalised quality of larger ones. Experiments on the PrefEval benchmark, including implicit preference-following tasks, show that PREF achieves higher accuracy, better calibration, and closer alignment with human judgments than strong baselines. By enabling scalable, interpretable, and user-aligned evaluation, PREF lays the groundwork for more reliable assessment and development of personalised language generation systems.
- Abstract(参考訳): ユーザ中心の情報システムにはパーソナライズされたテキスト生成が不可欠であるが,ほとんどの評価手法はユーザの個性を見落としている。
我々は、金の個人化参照を必要とせずに、一般的な出力品質とユーザ固有のアライメントを共同で測定する、textbf{PREF}, a \textbf{P}ersonalized \textbf{R}eference-free \textbf{E}valuation \textbf{F}rameworkを紹介する。
PreF は,(1) 大規模言語モデル (LLM) を用いて,事実性,一貫性,完全性などの普遍的な基準を包括的に網羅したクエリ固有のガイドラインを生成する,(2) 選好段階は,対象ユーザのプロファイル,説明又は推測された選好,文脈を用いて,これらの要因を選択的に拡張し,パーソナライズされた評価ルーブリックを生成する,(3) 評価段階は,このルーブリックに対して候補者の回答を評価するために LLM 判断を適用し,主観的優先順位を捉えながらベースラインの適性を保証する,という3段階のパイプラインで機能する。
好みからカバー範囲を分離することで、堅牢性、透明性、再利用性が向上し、より小さなモデルでより大きなモデルのパーソナライズされた品質を近似することができる。
PrefEvalベンチマークの実験では、暗黙の選好フォロータスクを含む実験により、PrefFは強い基準線よりも高い精度、キャリブレーション、人間の判断との密接な一致を実現していることが示された。
スケーラブルで解釈可能なユーザアライメント評価を実現することにより、PreFはパーソナライズされた言語生成システムの信頼性を高め、開発するための基盤となる。
関連論文リスト
- LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences [91.13704541413551]
LOTUSは詳細なキャプションを評価するためのリーダーボードである。
キャプションの品質など、様々な側面を包括的に評価する。
多様なユーザの嗜好に基準を合わせることで、嗜好指向の評価を可能にする。
論文 参考訳(メタデータ) (2025-07-25T15:12:42Z) - From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment [41.96246165999026]
大規模言語モデル(LLM)は、伝統的にワンサイズフィットのアプローチによって整列されてきた。
本稿では,LLMのスケーラブルなパーソナライズのための包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T17:41:46Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。