論文の概要: Preference-Aware Rubric Learning for Personalized Evaluation
- arxiv url: http://arxiv.org/abs/2605.31545v1
- Date: Fri, 29 May 2026 17:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.763251
- Title: Preference-Aware Rubric Learning for Personalized Evaluation
- Title(参考訳): パーソナライズド・アウェア・ルーブリック・ラーニングによる個人評価
- Authors: Yilun Qiu, Xiaoyan Zhao, Yang Zhang, Yuxin Chen, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Yoko Yamakata, Tat-Seng Chua,
- Abstract要約: 既存の評価手法では、長期的なインタラクション履歴に埋め込まれたユーザ固有の嗜好をキャプチャできない。
静的判断よりも学習問題としてパーソナライズされた評価を定式化するパラダイムであるパーソナライズド・アズ・ラーニングを提案する。
実験により、PARLはユーザ対応の応答を確実に識別し、ユーザ間で一般化する高忠実なルーブリックを一貫して誘導することが示された。
- 参考スコア(独自算出の注目度): 59.539429430690156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) evolve from general-purpose assistants to user-centric agents, personalization has become central to aligning model behavior with individual preferences, making the evaluation of personalized alignment a critical bottleneck. Existing evaluation methods-ranging from automatic metrics to LLM-as-a-judge approaches-fail to capture subjective, user-specific preferences embedded in long-term interaction histories. We identify three essential principles for reliable and effective personalized evaluation: Representativeness, User-Consistency, and Discriminativeness. To address these principles, we introduce Personalized Evaluation as Learning, a paradigm that formulates personalized evaluation as a learning problem rather than a static judgment. Under this paradigm, we propose PARL (Preference-Aware Rubric Learning for Personalized Evaluation), a framework that learns to induce preference-aware evaluation rubrics directly from raw user histories and performs a self-validation mechanism to ensure consistency with the user's preferences. PARL integrates rubric induction with a discriminative reinforcement learning objective that contrasts user-authored responses against competitive personalized model outputs, enabling the learned rubrics to capture precise, user-specific decision boundaries. Experiments on real-world personalized text generation tasks show that PARL consistently induces high-fidelity rubrics that reliably identify user-aligned responses and generalize across users and tasks, while capturing stable stylistic preferences and fine-grained evaluative patterns. To ensure reproducibility, our code is available at https://github.com/SnowCharmQ/PARL.
- Abstract(参考訳): 大言語モデル(LLM)が汎用アシスタントからユーザ中心エージェントへと進化するにつれて、個人化はモデル行動と個人の嗜好の整合の中心となり、パーソナライズされたアライメントの評価が重要なボトルネックとなっている。
LLM-as-a-judgeアプローチへの既存の評価手法は、長期的な相互作用履歴に埋め込まれた主観的、ユーザ固有の嗜好を捉える。
信頼性と効果的なパーソナライズされた評価のための3つの基本原則を同定する。
これらの原則に対処するために,静的な判断ではなく,パーソナライズされた評価を学習問題として定式化するパラダイムであるパーソナライズド・アズ・ラーニングを導入する。
本パラダイムでは,ユーザの嗜好と整合性を確保するための自己検証機構を実装したPARL(Preference-Aware Rubric Learning for Personalized Evaluation)を提案する。
PARLは、ルーブリック誘導と識別的強化学習の目標を統合し、ユーザが承認した応答と競合するパーソナライズされたモデル出力を対比することにより、学習したルーブリックが正確なユーザ固有の決定境界をキャプチャすることを可能にする。
実世界のパーソナライズされたテキスト生成タスクの実験では、PARLは、安定したスタイル的嗜好ときめ細かい評価パターンをキャプチャしながら、ユーザ対応の応答を確実に識別し、ユーザとタスクをまたがって一般化する高忠実なルーリックを一貫して誘導している。
再現性を確保するため、私たちのコードはhttps://github.com/SnowCharmQ/PARL.comで利用可能です。
関連論文リスト
- Towards Effective Model Editing for LLM Personalization [36.236438676571034]
我々はパーソナライズをモデル編集タスクとして概念化し、パーソナライズ編集を導入する。
このフレームワークは、クラスタ化された選好表現によってガイドされる局所的な編集を適用する。
微調整よりも高い編集精度と計算効率を実現する。
論文 参考訳(メタデータ) (2025-12-15T18:58:15Z) - Improving User Experience with Personalized Review Ranking and Summarization [0.0]
本研究は、レビューランキングと抽象要約を統合し、意思決定効率を向上させるためのパーソナライズされたフレームワークを提案する。
70名を対象に行ったユーザスタディでは、パーソナライズされたアプローチが満足度、妥当性、意思決定の信頼性を改善した。
論文 参考訳(メタデータ) (2025-10-28T13:16:28Z) - Beyond Static Evaluation: Rethinking the Assessment of Personalized Agent Adaptability in Information Retrieval [12.058221341033835]
適応型パーソナライゼーションにおける評価を再考するための概念レンズを提案する。
このレンズは,(1)時間的に進化する嗜好モデルを用いたペルソナベースユーザシミュレーション,(2)参照インタビューに触発されてコンテキスト内での嗜好を抽出する構造化エリケーションプロトコル,(3)エージェントの行動がセッションやタスク間でどのように改善されるかを測定する適応型評価メカニズムの3つを中心に構成されている。
論文 参考訳(メタデータ) (2025-10-05T00:35:37Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - PREFINE: Personalized Story Generation via Simulated User Critics and User-Specific Rubric Generation [2.8324853634693614]
PreFINEは、Crytique-and-Refineパラダイムをパーソナライズに拡張する新しいフレームワークである。
PreFINEは、ユーザのインタラクション履歴から擬似ユーザエージェントを構築し、ユーザ固有のルーリックを生成する。
本手法は,対話システムや教育,レコメンデーションなどの幅広い応用において,効率的なパーソナライズを可能にする可能性を持っている。
論文 参考訳(メタデータ) (2025-09-16T16:39:40Z) - Addressing Personalized Bias for Unbiased Learning to Rank [56.663619153713434]
Unbiased Learning to rank (ULTR)は、バイアスのあるユーザの行動ログからバイアスのないランキングモデルを学ぶことを目的としている。
そこで本研究では,学習からランクへの目標値を求めるために,新しいユーザ認識逆確率スコア推定器を提案する。
論文 参考訳(メタデータ) (2025-08-28T14:01:31Z) - PREF: Reference-Free Evaluation of Personalised Text Generation in LLMs [32.27940625341602]
ユーザ中心の情報システムにはパーソナライズドテキスト生成が不可欠である。
textbfPersonalized textbfReference-free textbfEvaluation textbfFrameworkを紹介する。
論文 参考訳(メタデータ) (2025-08-08T14:32:31Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。