論文の概要: P-Check: Advancing Personalized Reward Model via Learning to Generate Dynamic Checklist
- arxiv url: http://arxiv.org/abs/2601.02986v1
- Date: Tue, 06 Jan 2026 12:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.933493
- Title: P-Check: Advancing Personalized Reward Model via Learning to Generate Dynamic Checklist
- Title(参考訳): P-Check: 動的チェックリストを生成する学習によるパーソナライズされたリワードモデルの改善
- Authors: Kwangwook Seo, Dongha Lee,
- Abstract要約: 我々は、パーソナライズされた報酬モデリングフレームワークであるP-Checkを提案する。
P-Checkは、報酬予測を導くための動的評価基準を合成するプラグアンドプレイチェックリストジェネレータを訓練する。
実験を行い、P-Checkは報酬の精度を向上するだけでなく、下流のパーソナライズされた生成も向上することを示した。
- 参考スコア(独自算出の注目度): 11.399221632873934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent approaches in personalized reward modeling have primarily focused on leveraging user interaction history to align model judgments with individual preferences. However, existing approaches largely treat user context as a static or implicit conditioning signal, failing to capture the dynamic and multi-faceted nature of human judgment. In this paper, we propose P-Check, a novel personalized reward modeling framework, designed to train a plug-and-play checklist generator that synthesizes dynamic evaluation criteria for guiding the reward prediction. To better align these checklists with personalized nuances, we introduce Preference-Contrastive Criterion Weighting, a training strategy that assigns saliency scores to criteria based on their discriminative power for personalized judgment. We conduct extensive experiments and demonstrate that P-Check not only improves reward accuracy but also enhances downstream personalized generation, and remains robust in OOD scenarios.
- Abstract(参考訳): パーソナライズされた報酬モデリングの最近のアプローチは、主にユーザーインタラクション履歴を活用して、モデルの判断を個人の好みに合わせることに重点を置いている。
しかし、既存のアプローチは、ユーザコンテキストを静的または暗黙的な条件付け信号として扱うが、人間の判断の動的で多面的な性質を捉えていない。
本稿では,P-Checkを提案する。P-Checkは,報酬予測を導くための動的評価基準を合成するプラグイン・アンド・プレイ・チェックリスト・ジェネレータを訓練するために設計された,パーソナライズされた報酬モデリングフレームワークである。
これらのチェックリストとパーソナライズされたニュアンスとの整合性を改善するために、パーソナライズされた判断のための識別力に基づいて、サリエンシスコアを基準に割り当てるトレーニング戦略であるPreference-Contrastive Criterion Weightingを導入する。
我々は広範な実験を行い、P-Checkは報酬の精度を向上するだけでなく、下流のパーソナライズされた生成も向上することを示した。
関連論文リスト
- Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models [63.00458229517523]
本研究は、嗜好表現を探索することで、報酬モデルの評価課題に対処する。
多次元リワードモデルベンチマーク (MRMBench) を構築する。
本稿では,報酬予測時に使用する次元を同定し,その解釈可能性を高める解析手法,推論時探索を提案する。
論文 参考訳(メタデータ) (2025-11-16T05:29:29Z) - PreferThinker: Reasoning-based Personalized Image Preference Assessment [83.66114370585976]
推論に基づくパーソナライズされた画像嗜好評価フレームワークを提案する。
まず、ユーザーの好みプロファイルを参照画像から予測する。
次に、解釈可能で多次元のスコアと候補画像の評価を提供する。
論文 参考訳(メタデータ) (2025-11-01T16:19:51Z) - Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction [41.53271688465831]
ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
論文 参考訳(メタデータ) (2025-11-01T12:16:24Z) - Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning [22.252030067675065]
より忠実でコントロール可能なパーソナライゼーションを実現する,堅牢な強化学習フレームワークであるCristique-Post-Editを提案する。
本フレームワークは,(1)報奨ハッキングに抵抗する多次元スコアとテキスト批評を提供するパーソナライズドジェネレーティブ・リワード・モデル(GRM)と,(2)より標的的で効率的な学習のためのこれらの批判に基づいて,ポリシーモデルが自身の出力を更新する批評家・ポスト編集機構の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2025-10-21T17:40:03Z) - Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文 参考訳(メタデータ) (2025-07-07T06:26:04Z) - Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment [35.68913976348608]
本稿では,対話を通じてユーザプロファイルを反復的に推測・精査するRLPAフレームワークについて紹介する。
我々はQwen-2.5-3B-インストラクトを微調整することでRLPAをインスタンス化し、Qwen-RLPAはパーソナライズされた対話における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-21T12:38:36Z) - Persona-judge: Personalized Alignment of Large Language Models via Token-level Self-judgment [21.677859755364334]
ペルソナ・ジャッジ(Persona-judge)は、トレーニング不要なパーソナライズされたアライメントと、目に見えない好みのアライメントを可能にする、新しい差別的パラダイムである。
Persona-judgeは、パーソナライズされたアライメントに対して、スケーラブルで、計算的に効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-17T05:50:13Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。