論文の概要: On the Robustness of Reward Models for Language Model Alignment
- arxiv url: http://arxiv.org/abs/2505.07271v1
- Date: Mon, 12 May 2025 06:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.28117
- Title: On the Robustness of Reward Models for Language Model Alignment
- Title(参考訳): 言語モデルアライメントにおけるリワードモデルのロバスト性について
- Authors: Jiwoo Hong, Noah Lee, Eunki Kim, Guijin Son, Woojin Chung, Aman Gupta, Shao Tang, James Thorne,
- Abstract要約: 我々はBradley-Terry(BT)モデルを用いて訓練した報酬モデルにおいて、過度に最適化される原因について検討する。
隠れ状態ノルムの過度な分散が過度な最適化の源であることを示す。
最先端のRMを8Bスケールで超越した高品質なデータとモデルにBSRを適用した。
- 参考スコア(独自算出の注目度): 9.804782604188656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bradley-Terry (BT) model is widely practiced in reward modeling for reinforcement learning with human feedback (RLHF). Despite its effectiveness, reward models (RMs) trained with BT model loss are prone to over-optimization, losing generalizability to unseen input distributions. In this paper, we study the cause of over-optimization in RM training and its downstream effects on the RLHF procedure, accentuating the importance of distributional robustness of RMs in unseen data. First, we show that the excessive dispersion of hidden state norms is the main source of over-optimization. Then, we propose batch-wise sum-to-zero regularization (BSR) to enforce zero-centered reward sum per batch, constraining the rewards with extreme magnitudes. We assess the impact of BSR in improving robustness in RMs through four scenarios of over-optimization, where BSR consistently manifests better robustness. Subsequently, we compare the plain BT model and BSR on RLHF training and empirically show that robust RMs better align the policy to the gold preference model. Finally, we apply BSR to high-quality data and models, which surpasses state-of-the-art RMs in the 8B scale by adding more than 5% in complex preference prediction tasks. By conducting RLOO training with 8B RMs, AlpacaEval 2.0 reduces generation length by 40% while adding a 7% increase in win rate, further highlighting that robustness in RMs induces robustness in RLHF training. We release the code, data, and models: https://github.com/LinkedIn-XFACT/RM-Robustness.
- Abstract(参考訳): Bradley-Terry(BT)モデルは、人間フィードバックによる強化学習(RLHF)のための報酬モデリングにおいて広く採用されている。
その有効性にもかかわらず、BTモデル損失で訓練された報酬モデル(RM)は過度に最適化される傾向にあり、入力分布の見当たらない一般化性が失われる。
本稿では、RMトレーニングにおける過度な最適化の原因と、RLHF手順に対する下流の影響について検討し、未知のデータにおけるRMの分布ロバスト性の重要性を強調する。
まず,隠れ状態ノルムの過度な分散が過度な最適化の原因であることを示す。
次に,バッチ毎にゼロ中心の報酬和を強制するバッチワイズ・サム・ツー・ゼロ正則化(BSR)を提案し,その報酬を極度に制限する。
BSRがRMのロバスト性向上に与える影響を,BSRが常により良いロバスト性を示す4つの過度最適化シナリオを通して評価した。
続いて、RLHFトレーニングにおけるBTモデルとBSRを比較し、ロバストRMがゴールドプライオリティモデルとの整合性を実証的に示す。
最後に、BSRを8Bスケールで最先端のRMを超える高品質なデータやモデルに適用し、複雑な嗜好予測タスクを5%以上追加する。
8BのRMでRLOOトレーニングを行うことで、AlpacaEval 2.0は生成長を40%削減し、7%の勝利率向上を実現し、RMの堅牢性はRLHFトレーニングにおいて堅牢性をもたらすことを強調した。
コード、データ、モデルをリリースします。
関連論文リスト
- RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reward Reasoning Models (ReasRMs) を新たに導入する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
本モデルでは,複数のベンチマークにおいて,生成型RMの最先端あるいは近近性能を実現する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。