論文の概要: Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2602.18037v1
- Date: Fri, 20 Feb 2026 07:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.258308
- Title: Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards
- Title(参考訳): 段階的正規化は、人間のフィードバックと検証可能なリワードからの強化学習におけるリワードハックを防ぐ
- Authors: Johannes Ackermann, Michael Noukhovitch, Takashi Ishida, Masashi Sugiyama,
- Abstract要約: 一般的な問題は報酬ハックであり、ポリシーは報酬の不正確さを利用して意図しない振る舞いを学ぶ。
これまでのほとんどの作業では、参照モデルに対するKullback-Leiblerペナルティによるポリシー更新を制限することで、この問題に対処している。
報酬がより正確である地域に対して、ポリシー更新をバイアスする方法でLMを訓練する。
- 参考スコア(独自算出の注目度): 45.83885805939434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) or Verifiable Rewards (RLVR) are two key steps in the post-training of modern Language Models (LMs). A common problem is reward hacking, where the policy may exploit inaccuracies of the reward and learn an unintended behavior. Most previous works address this by limiting the policy update with a Kullback-Leibler (KL) penalty towards a reference model. We propose a different framing: Train the LM in a way that biases policy updates towards regions in which the reward is more accurate. First, we derive a theoretical connection between the accuracy of a reward model and the flatness of an optimum at convergence. Gradient regularization (GR) can then be used to bias training to flatter regions and thereby maintain reward model accuracy. We confirm these results by showing that the gradient norm and reward accuracy are empirically correlated in RLHF. We then show that Reference Resets of the KL penalty implicitly use GR to find flatter regions with higher reward accuracy. We further improve on this by proposing to use explicit GR with an efficient finite-difference estimate. Empirically, GR performs better than a KL penalty across a diverse set of RL experiments with LMs. GR achieves a higher GPT-judged win-rate in RLHF, avoids overly focusing on the format in rule-based math rewards, and prevents hacking the judge in LLM-as-a-Judge math tasks.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) または Verifiable Rewards (RLVR) は、現代の言語モデル(LM)のポストトレーニングにおける2つの重要なステップである。
一般的な問題は報酬ハックであり、ポリシーは報酬の不正確さを利用して意図しない振る舞いを学ぶ。
これまでのほとんどの作業では、参照モデルに対するKullback-Leibler(KL)ペナルティによるポリシー更新を制限することで、この問題に対処している。
報酬がより正確である地域に対して、ポリシー更新をバイアスする方法でLMを訓練する。
まず、報酬モデルの精度と収束時の最適値の平坦性の間の理論的関係を導出する。
グラディエント正規化(GR)は、フラットな領域へのバイアストレーニングに使用でき、それによって報酬モデルの精度を維持することができる。
RLHFにおいて,勾配ノルムと報酬精度が実験的に相関していることを示すことにより,これらの結果を確認した。
次に、KLペナルティの参照リセットがGRを用いて、より高い報酬精度でフラットな領域を見つけることを暗黙的に示す。
我々は、より効率的な有限差分推定で明示的なGRを使用することにより、これをさらに改善する。
実験的に、GR は LM を用いて様々な RL 実験を行い、KL のペナルティよりも優れた性能を発揮する。
GRは、RLHFにおけるGPT-judgedの勝利率の向上を実現し、ルールベースの数学報酬の形式に過度にフォーカスすることを避け、LLM-as-a-Judgeの数学タスクにおける裁判官のハッキングを防ぐ。
関連論文リスト
- Reward Shaping for Inference-Time Alignment: A Stackelberg Game Perspective [33.36936642383929]
簡単な報酬形成手法が最適報酬モデルに効果的に近似できることを示す。
提案手法は平均報酬を継続的に改善し,評価設定の平均値に対して66%以上の利得率を達成する。
論文 参考訳(メタデータ) (2026-01-31T05:45:51Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification [1.0582505915332336]
報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。
エラーが重み付けされている場合、いくつかのポリシーは、基本モデル以上の実用性は達成していないにもかかわらず、任意に高い報酬を得る。
多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬の源泉が重み付き誤りであることを示している。
論文 参考訳(メタデータ) (2024-07-19T17:57:59Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。