論文の概要: Bias Fitting to Mitigate Length Bias of Reward Model in RLHF
- arxiv url: http://arxiv.org/abs/2505.12843v1
- Date: Mon, 19 May 2025 08:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.486035
- Title: Bias Fitting to Mitigate Length Bias of Reward Model in RLHF
- Title(参考訳): RLHFにおける逆流モデル長バイアス軽減のためのバイアスフィッティング
- Authors: Kangwen Zhao, Jianfeng Cai, Jinhua Zhu, Ruopei Sun, Dongyun Xue, Wengang Zhou, Li Li, Houqiang Li,
- Abstract要約: 人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
- 参考スコア(独自算出の注目度): 81.44256822500257
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning from Human Feedback relies on reward models to align large language models with human preferences. However, RLHF often suffers from reward hacking, wherein policy learning exploits flaws in the trained reward model to maximize reward scores without genuinely aligning with human preferences. A significant example of such reward hacking is length bias, where reward models usually favor longer responses irrespective of actual response quality. Previous works on length bias have notable limitations, these approaches either mitigate bias without characterizing the bias form, or simply assume a linear length-reward relation. To accurately model the intricate nature of length bias and facilitate more effective bias mitigation, we propose FiMi-RM (Bias Fitting to Mitigate Length Bias of Reward Model in RLHF), a framework that autonomously learns and corrects underlying bias patterns. Our approach consists of three stages: First, we train a standard reward model which inherently contains length bias. Next, we deploy a lightweight fitting model to explicitly capture the non-linear relation between length and reward. Finally, we incorporate this learned relation into the reward model to debias. Experimental results demonstrate that FiMi-RM achieves a more balanced length-reward distribution. Furthermore, when applied to alignment algorithms, our debiased reward model improves length-controlled win rate and reduces verbosity without compromising its performance.
- Abstract(参考訳): 人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
しかし、RLHFは報酬のハッキングに悩まされることが多く、政策学習はトレーニングされた報酬モデルの欠陥を利用して報酬のスコアを人間の好みと真に一致させることなく最大化する。
このような報酬ハッキングの顕著な例は長さバイアスであり、報酬モデルは通常、実際のレスポンスの品質に関わらず、より長いレスポンスを好む。
これらのアプローチは、バイアス形式を特徴づけることなくバイアスを緩和するか、単に線形長逆関係を仮定する。
長さバイアスの複雑な性質を正確にモデル化し、より効果的なバイアス緩和を促進するために、基礎となるバイアスパターンを自律的に学習し修正するフレームワークであるFiMi-RM(Bias Fitting to Mitigate Length Bias of Reward Model in RLHF)を提案する。
まず、本質的に長さバイアスを含む標準報酬モデルをトレーニングします。
次に、長さと報酬の間の非線形関係を明確に把握するために、軽量なフィッティングモデルをデプロイする。
最後に、この学習された関係をデバイアスに対する報酬モデルに組み込む。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
さらに,アライメントアルゴリズムに適用した場合,デバイアスド報酬モデルでは,その性能を損なうことなく,長所制御の勝利率を向上し,冗長性を低下させる。
関連論文リスト
- CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models [29.95434387343843]
本稿では,3つのコンポーネントによる長さバイアスを緩和する統合フレームワークを提案する。
CoLDは一貫して報酬長相関を減少させ、ステップ選択の精度を改善し、より簡潔で論理的に妥当な推論を促進する。
論文 参考訳(メタデータ) (2025-07-21T15:07:59Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Averaging log-likelihoods in direct alignment [43.77763433288893]
本稿では,RL問題に対する最適ポリシーを与える最適演算子で構成する,新しい平均演算子を提案する。
このような平均化の効果を実証的に研究し、世代長とスコアのトレードオフを観察する。
論文 参考訳(メタデータ) (2024-06-27T14:07:38Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。