論文の概要: PersRM-R1: Enhance Personalized Reward Modeling with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.14076v1
- Date: Tue, 12 Aug 2025 14:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.160165
- Title: PersRM-R1: Enhance Personalized Reward Modeling with Reinforcement Learning
- Title(参考訳): PersRM-R1:強化学習によるパーソナライズされたリワードモデリングの実現
- Authors: Mengdi Li, Guanqiao Chen, Xufeng Zhao, Haochen Wen, Shu Yang, Di Wang,
- Abstract要約: PersRM-R1は、個人的要因を特定・表現するために設計された最初の推論に基づく報酬モデリングフレームワークである。
提案手法は,合成データ生成と教師付き微調整と強化微調整を組み合わせた2段階の訓練パイプラインを組み合わせる。
実験結果から,PersRM-R1は類似のモデルよりも優れており,精度と一般化性の両方において,はるかに大きなモデルの性能に匹敵することがわかった。
- 参考スコア(独自算出の注目度): 7.899605480166484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs), which are central to existing post-training methods, aim to align LLM outputs with human values by providing feedback signals during fine-tuning. However, existing RMs struggle to capture nuanced, user-specific preferences, especially under limited data and across diverse domains. Thus, we introduce PersRM-R1, the first reasoning-based reward modeling framework specifically designed to identify and represent personal factors from only one or a few personal exemplars. To address challenges including limited data availability and the requirement for robust generalization, our approach combines synthetic data generation with a two-stage training pipeline consisting of supervised fine-tuning followed by reinforcement fine-tuning. Experimental results demonstrate that PersRM-R1 outperforms existing models of similar size and matches the performance of much larger models in both accuracy and generalizability, paving the way for more effective personalized LLMs.
- Abstract(参考訳): リワードモデル(RM)は、既存のポストトレーニング手法の中心をなすもので、微調整中にフィードバック信号を提供することで、LLM出力と人間の値との整合を図る。
しかし、既存のRMは、特に限られたデータの下で、そして多様なドメインで、微妙でユーザー固有の好みを捉えようと苦労しています。
そこで我々はPersRM-R1を紹介した。PersRM-R1は、個人的要因を特定・表現するために設計された最初の推論に基づく報酬モデリングフレームワークである。
データ可用性の制限や堅牢な一般化の要求といった課題に対処するため,本手法では,合成データ生成と教師付き微調整と強化微調整を組み合わせた2段階の訓練パイプラインを組み合わせる。
実験結果から,PersRM-R1は従来のモデルよりも精度と一般化性で優れており,より効率的なパーソナライズされたLCMを実現する方法が示された。
関連論文リスト
- User-centric Subjective Leaderboard by Customizable Reward Modeling [34.40455169451943]
ユーザ中心型主観的リーダーシップ(USL)について紹介する。
さまざまな現実世界のシナリオにまたがって、大規模言語モデル(LLM)の好み駆動の動的ランキングを提供する。
我々の研究は、10万件以上の主観的クエリを含む、実際の人間の嗜好データの徹底的な調査に基づいている。
論文 参考訳(メタデータ) (2025-08-13T03:39:04Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。