論文の概要: P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling
- arxiv url: http://arxiv.org/abs/2602.12116v1
- Date: Thu, 12 Feb 2026 16:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.915768
- Title: P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling
- Title(参考訳): P-GenRM: テストタイムユーザベーススケーリングによるパーソナライズされた生成リワードモデル
- Authors: Pinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li,
- Abstract要約: P-GenRM(Personalized Generative Reward Model)を提案する。
P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。
さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
- 参考スコア(独自算出の注目度): 66.55381105691818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.
- Abstract(参考訳): 大規模言語モデルのパーソナライズされたアライメントは、典型的には強化学習を通じて、個々のユーザの好みに応じて対応しようとする。
重要な課題は、オープンエンドシナリオにおいて、正確でユーザ固有の報酬信号を取得することだ。
既存のパーソナライズされた報酬モデルには,(1)多様なシナリオ固有の嗜好を小さな,固定された評価原則に過度に単純化すること,(2)限られたフィードバックを持つ新規ユーザへの一般化に苦慮すること,の2つの制約がある。
そこで本研究ではP-GenRMを提案する。Personalized Generative Reward Modelで,テストタイムのユーザベーススケーリングを実現する。
P-GenRMは、選好信号を、適応的なペルソナを導出し、様々なシナリオでルーリックを採点する構造化評価チェーンに変換する。
個々のレベルでは、各ユーザのスコアリングスキームを適応的にスケーリングし、集約します。
この設計は、推定された好みのノイズを軽減し、プロトタイプベースの転送により、目に見えないユーザへの一般化を促進する。
実証実験の結果、P-GenRMはパーソナライズされたパーソナライズされた報酬モデルベンチマークにおいて、平均2.31%の改善を達成し、アウト・オブ・ディストリビューションデータセット上で強力な一般化を示す。
特に、テストタイムのユーザベースのスケーリングは、3%の増量を提供し、テストタイムのスケーラビリティとより強力なパーソナライズされたアライメントを示す。
関連論文リスト
- CURP: Codebook-based Continuous User Representation for Personalized Generation with LLMs [60.867541073274715]
双方向ユーザエンコーダと離散プロトタイプコードブックを用いて,多次元ユーザ特性を抽出する新しいフレームワークCURPを提案する。
この設計により、少数のトレーニング可能なパラメータでプラグアンドプレイのパーソナライズが可能となる。
CURPは,強いベースラインに比べて優れた性能と一般化を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-31T14:13:06Z) - One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment [55.86333374784959]
これらの制約に対処するには、データの適合からユーザの好みを学習し、嗜好適応のプロセスを学ぶためのパラダイムシフトが必要である、と我々は主張する。
メタ学習問題としてパーソナライズされた報酬モデルを変更するメタリワードモデリング(MRM)を提案する。
MRMはパーソナライズを強化し、ユーザの堅牢性を向上し、ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-01-26T17:55:52Z) - Lightweight Inference-Time Personalization for Frozen Knowledge Graph Embeddings [0.0]
GatedBiasは知識グラフのための軽量な推論時パーソナライズフレームワークである。
プロファイル固有の機能は、グラフ由来のバイナリゲートと組み合わせて、解釈可能な、パーエンタリティバイアスを生成する。
2つのベンチマークデータセット上でGatedBiasを評価する。
論文 参考訳(メタデータ) (2025-12-26T22:30:37Z) - Minority-Aware Satisfaction Estimation in Dialogue Systems via Preference-Adaptive Reinforcement Learning [19.994184617064395]
ユーザ満足度推定のための個人レベルの好みとグループレベルの好みの両方をモデル化する統合フレームワークを提案する。
Emotional Support Conversationデータセットの実験では、ユーザ満足度推定における一貫した改善が示されている。
論文 参考訳(メタデータ) (2025-11-07T16:34:03Z) - Conv4Rec: A 1-by-1 Convolutional AutoEncoder for User Profiling through Joint Analysis of Implicit and Explicit Feedbacks [35.7275102787435]
ユーザモデリングとレコメンデーションタスクのための新しい畳み込み型AutoEncoderアーキテクチャを導入する。
このモデルでは,明示的な評価とサンプリングパターンの暗黙的な情報の両方から,共同で学習することができる。
いくつかの実生活データセットの実験において、暗黙的および明示的なフィードバック予測タスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-09T08:25:11Z) - LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文 参考訳(メタデータ) (2025-04-20T01:16:24Z) - From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment [41.96246165999026]
大規模言語モデル(LLM)は、伝統的にワンサイズフィットのアプローチによって整列されてきた。
本稿では,LLMのスケーラブルなパーソナライズのための包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T17:41:46Z) - Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - Unsupervised Model Personalization while Preserving Privacy and
Scalability: An Open Problem [55.21502268698577]
本研究では,非教師なしモデルパーソナライゼーションの課題について検討する。
この問題を探求するための新しいDual User-Adaptation Framework(DUA)を提供する。
このフレームワークは、サーバ上のモデルパーソナライズとユーザデバイス上のローカルデータ正規化に柔軟にユーザ適応を分散させる。
論文 参考訳(メタデータ) (2020-03-30T09:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。