論文の概要: The Reward Model Selection Crisis in Personalized Alignment
- arxiv url: http://arxiv.org/abs/2512.23067v1
- Date: Sun, 28 Dec 2025 20:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.348633
- Title: The Reward Model Selection Crisis in Personalized Alignment
- Title(参考訳): パーソナライズされたアライメントにおけるリワードモデル選択の危機
- Authors: Fady Rezk, Yuangang Pan, Chuan-Sheng Foo, Xun Xu, Nancy Chen, Henry Gouk, Timothy Hospedales,
- Abstract要約: 標準的なRM精度は、展開可能なパーソナライズアライメントの選択基準として破滅的に失敗することを示す。
我々は、RGDスコアリング機能が好ましくない応答と好ましくない応答とを正しく区別するかどうかの指標であるポリシー精度を導入する。
Pref-LaMPも導入しています。
- 参考スコア(独自算出の注目度): 38.08221267202287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Personalized alignment from preference data has focused primarily on improving reward model (RM) accuracy, with the implicit assumption that better preference ranking translates to better personalized behavior. However, in deployment, computational constraints necessitate inference-time adaptation via reward-guided decoding (RGD) rather than per-user policy fine-tuning. This creates a critical but overlooked requirement: reward models must not only rank preferences accurately but also effectively guide token-level generation decisions. We demonstrate that standard RM accuracy fails catastrophically as a selection criterion for deployment-ready personalized alignment. Through systematic evaluation across three datasets, we introduce policy accuracy, a metric quantifying whether RGD scoring functions correctly discriminate between preferred and dispreferred responses. We show that RM accuracy correlates only weakly with this policy-level discrimination ability (Kendall's tau = 0.08--0.31). More critically, we introduce Pref-LaMP, the first personalized alignment benchmark with ground-truth user completions, enabling direct behavioral evaluation without circular reward-based metrics. On Pref-LaMP, we expose a complete decoupling between discrimination and generation: methods with 20-point RM accuracy differences produce almost identical output quality, and even methods achieving high discrimination fail to generate behaviorally aligned responses. Finally, simple in-context learning (ICL) dominates all reward-guided methods for models > 3B parameters, achieving 3-5 point ROUGE-1 gains over the best reward method at 7B scale. These findings show that the field optimizes proxy metrics that fail to predict deployment performance and do not translate preferences into real behavioral adaptation under deployment constraints.
- Abstract(参考訳): 選好データからのパーソナライズされたアライメントは、主に報酬モデル(RM)の精度の改善に焦点を合わせており、より良い選好ランクがより良いパーソナライズされた行動に変換されるという暗黙の仮定がある。
しかし、デプロイメントにおいて、計算制約はユーザごとのポリシーの微調整ではなく、報酬誘導復号(RGD)による推論時適応を必要とする。
報酬モデルは、選好を正確にランク付けするだけでなく、トークンレベルの生成決定を効果的に導く必要がある。
標準的なRM精度は、展開可能なパーソナライズアライメントの選択基準として破滅的に失敗することを示した。
3つのデータセットの体系的な評価を通じて、RGDスコアリング機能が好ましくない応答と好ましくない応答を正しく区別するかどうかを定量化する指標であるポリシー精度を導入する。
RMの精度は、この政策レベルの識別能力(ケンドールのタウ = 0.08--0.31)と弱い相関しか示さない。
より重要なことは、第1のパーソナライズされたアライメントベンチマークであるPref-LaMPを導入し、円形の報酬ベースのメトリクスを使わずに直接の行動評価を可能にする。
Pref-LaMPでは、識別と生成の完全な疎結合を露呈する:20ポイントのRM精度差を持つ手法は、ほぼ同一の出力品質を生み出す。
最後に、単純なインコンテキスト学習(ICL)はモデル > 3B パラメータに対する報酬誘導手法を全て支配し、7B スケールで最高の報酬法よりも 3-5 ポイントのROUGE-1 を達成している。
これらの結果から、フィールドはデプロイメントパフォーマンスの予測に失敗するプロキシメトリクスを最適化し、デプロイメント制約下での実際の振る舞い適応に優先順位を変換しないことが分かる。
関連論文リスト
- AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment [25.526336903358757]
オフライン優先最適化は、言語モデルを調整するためのRLHFのよりシンプルでより安定した代替手段を提供する。
本稿では,単純なアルゴリズムであるAdaptive Margin-attached Preference Optimization (AMaPO)を提案する。
AMaPOは、Z正規化と指数的スケーリングによって洗練され、不正なサンプルの勾配を増幅し、それらを正しいものに抑えることによって、学習の取り組みを動的に再配置する。
論文 参考訳(メタデータ) (2025-11-12T14:51:59Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? [46.396681032860414]
RMの精度の違いが、最適化されたポリシー性能のギャップにどのように変換されるかを検討する。
我々は、RM品質の測定に使用する精度が、潜在的なRM過度な最適化を十分に捉えることができないことを認識している。
論文 参考訳(メタデータ) (2024-10-08T00:52:03Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。