論文の概要: Mitigating Length Bias in RLHF through a Causal Lens
- arxiv url: http://arxiv.org/abs/2511.12573v1
- Date: Sun, 16 Nov 2025 12:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.383342
- Title: Mitigating Length Bias in RLHF through a Causal Lens
- Title(参考訳): 因果レンズを用いたRLHFにおける長さバイアスの緩和
- Authors: Hyeonji Kim, Sujeong Oh, Sanghack Lee,
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く用いられている。
本稿では,RLHF報酬モデルにおける長さバイアスの分析と緩和のための因果的枠組みを提案する。
- 参考スコア(独自算出の注目度): 8.334918207379173
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is widely used to align large language models (LLMs) with human preferences. However, RLHF-trained reward models often exhibit length bias -- a systematic tendency to favor longer responses by conflating verbosity with quality. We propose a causal framework for analyzing and mitigating length bias in RLHF reward modeling. Central to our approach is a counterfactual data augmentation method that generates response pairs designed to isolate content quality from verbosity. These counterfactual examples are then used to train the reward model, enabling it to assess responses based on content quality independently of verbosity. Specifically, we construct (1) length-divergent pairs with similar content and (2) content-divergent pairs of similar length. Empirical evaluations show that our method reduces length bias in reward assignment and leads to more concise, content-focused outputs from the policy model. These findings demonstrate that the proposed approach effectively reduces length bias and improves the robustness and content sensitivity of reward modeling in RLHF pipelines.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるために広く用いられている。
しかし、RLHFで訓練された報酬モデルは、しばしば長さバイアスを示す。
本稿では,RLHF報酬モデルにおける長さバイアスの分析と緩和のための因果的枠組みを提案する。
我々のアプローチの中心は、冗長性からコンテンツ品質を分離するために設計された応答ペアを生成する反ファクト的データ拡張手法である。
これらのカウンターファクトの例は、報酬モデルをトレーニングするために使用され、冗長性とは無関係にコンテンツ品質に基づいて応答を評価することができる。
具体的には,(1)類似した内容を持つ長さ分割対と(2)類似した長さを持つ内容分割対を構築する。
実験により,提案手法は報酬の割り当てにおける長さバイアスを低減し,ポリシーモデルからより簡潔でコンテンツ中心のアウトプットを導出することを示す。
これらの結果から,提案手法は,RLHFパイプラインの長みバイアスを効果的に低減し,報酬モデリングの堅牢性と内容感度を向上させることが示唆された。
関連論文リスト
- CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models [29.95434387343843]
本稿では,3つのコンポーネントによる長さバイアスを緩和する統合フレームワークを提案する。
CoLDは一貫して報酬長相関を減少させ、ステップ選択の精度を改善し、より簡潔で論理的に妥当な推論を促進する。
論文 参考訳(メタデータ) (2025-07-21T15:07:59Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。