論文の概要: Bias Fitting to Mitigate Length Bias of Reward Model in RLHF
- arxiv url: http://arxiv.org/abs/2505.12843v1
- Date: Mon, 19 May 2025 08:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.486035
- Title: Bias Fitting to Mitigate Length Bias of Reward Model in RLHF
- Title(参考訳): RLHFにおける逆流モデル長バイアス軽減のためのバイアスフィッティング
- Authors: Kangwen Zhao, Jianfeng Cai, Jinhua Zhu, Ruopei Sun, Dongyun Xue, Wengang Zhou, Li Li, Houqiang Li,
- Abstract要約: 人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
- 参考スコア(独自算出の注目度): 81.44256822500257
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning from Human Feedback relies on reward models to align large language models with human preferences. However, RLHF often suffers from reward hacking, wherein policy learning exploits flaws in the trained reward model to maximize reward scores without genuinely aligning with human preferences. A significant example of such reward hacking is length bias, where reward models usually favor longer responses irrespective of actual response quality. Previous works on length bias have notable limitations, these approaches either mitigate bias without characterizing the bias form, or simply assume a linear length-reward relation. To accurately model the intricate nature of length bias and facilitate more effective bias mitigation, we propose FiMi-RM (Bias Fitting to Mitigate Length Bias of Reward Model in RLHF), a framework that autonomously learns and corrects underlying bias patterns. Our approach consists of three stages: First, we train a standard reward model which inherently contains length bias. Next, we deploy a lightweight fitting model to explicitly capture the non-linear relation between length and reward. Finally, we incorporate this learned relation into the reward model to debias. Experimental results demonstrate that FiMi-RM achieves a more balanced length-reward distribution. Furthermore, when applied to alignment algorithms, our debiased reward model improves length-controlled win rate and reduces verbosity without compromising its performance.
- Abstract(参考訳): 人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
しかし、RLHFは報酬のハッキングに悩まされることが多く、政策学習はトレーニングされた報酬モデルの欠陥を利用して報酬のスコアを人間の好みと真に一致させることなく最大化する。
このような報酬ハッキングの顕著な例は長さバイアスであり、報酬モデルは通常、実際のレスポンスの品質に関わらず、より長いレスポンスを好む。
これらのアプローチは、バイアス形式を特徴づけることなくバイアスを緩和するか、単に線形長逆関係を仮定する。
長さバイアスの複雑な性質を正確にモデル化し、より効果的なバイアス緩和を促進するために、基礎となるバイアスパターンを自律的に学習し修正するフレームワークであるFiMi-RM(Bias Fitting to Mitigate Length Bias of Reward Model in RLHF)を提案する。
まず、本質的に長さバイアスを含む標準報酬モデルをトレーニングします。
次に、長さと報酬の間の非線形関係を明確に把握するために、軽量なフィッティングモデルをデプロイする。
最後に、この学習された関係をデバイアスに対する報酬モデルに組み込む。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
さらに,アライメントアルゴリズムに適用した場合,デバイアスド報酬モデルでは,その性能を損なうことなく,長所制御の勝利率を向上し,冗長性を低下させる。
関連論文リスト
- Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。