論文の概要: Factored Causal Representation Learning for Robust Reward Modeling in RLHF
- arxiv url: http://arxiv.org/abs/2601.21350v1
- Date: Thu, 29 Jan 2026 07:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.643209
- Title: Factored Causal Representation Learning for Robust Reward Modeling in RLHF
- Title(参考訳): RLHFにおけるロバストリワードモデリングのための因数因数表現学習
- Authors: Yupei Yang, Lin Yang, Wanxi Deng, Lin Qu, Fan Feng, Biwei Huang, Shikui Tu, Lei Xu,
- Abstract要約: 大きな言語モデルを人間の好みに合わせるためには、信頼できる報酬モデルが不可欠である。
標準的な報酬モデルは、人間のラベルと因果関係のない刺激的な特徴に影響を受けやすい。
これは、高い予測された報酬がより良い行動に変換されないような、報酬のハッキングにつながる可能性がある。
- 参考スコア(独自算出の注目度): 40.483487519518896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A reliable reward model is essential for aligning large language models with human preferences through reinforcement learning from human feedback. However, standard reward models are susceptible to spurious features that are not causally related to human labels. This can lead to reward hacking, where high predicted reward does not translate into better behavior. In this work, we address this problem from a causal perspective by proposing a factored representation learning framework that decomposes the model's contextual embedding into (1) causal factors that are sufficient for reward prediction and (2) non-causal factors that capture reward-irrelevant attributes such as length or sycophantic bias. The reward head is then constrained to depend only on the causal component. In addition, we introduce an adversarial head trained to predict reward from the non-causal factors, while applying gradient reversal to discourage them from encoding reward-relevant information. Experiments on both mathematical and dialogue tasks demonstrate that our method learns more robust reward models and consistently improves downstream RLHF performance over state-of-the-art baselines. Analyses on length and sycophantic bias further validate the effectiveness of our method in mitigating reward hacking behaviors.
- Abstract(参考訳): 信頼性の高い報酬モデルは、人間のフィードバックからの強化学習を通じて、大きな言語モデルと人間の嗜好を整合させるのに不可欠である。
しかし、標準的な報酬モデルは、人間のラベルと因果関係のない刺激的な特徴に影響を受けやすい。
これは、高い予測された報酬がより良い行動に変換されないような、報酬のハッキングにつながる可能性がある。
本研究では,(1)報酬予測に十分な因果的要因と(2)長さや空想的バイアスなどの報酬非関連属性を捉える非因果的要因にモデルを分解する因子的表現学習フレームワークを提案することにより,因果的観点からこの問題に対処する。
その後、報酬ヘッドは因果成分のみに依存するよう制約される。
さらに,非因果的要因から報酬を予測するために訓練された対向頭部を導入するとともに,報酬関連情報のエンコーディングを防止するために勾配反転を適用した。
数学的タスクと対話タスクの両方の実験により、我々の手法はより堅牢な報酬モデルを学び、最先端のベースラインよりも下流のRLHFの性能を一貫して改善することを示した。
報酬ハッキング行動の軽減における手法の有効性について,長さとサイコファン性バイアスの分析によりさらに検証した。
関連論文リスト
- Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Information-Theoretic Reward Decomposition for Generalizable RLHF [51.550547285296794]
我々は報酬値を2つの独立したコンポーネントに分解する。
提案手法は,データサンプルを不利な報酬値に基づいて優先順位付けすることで,新たな報酬学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-08T13:26:07Z) - Probabilistic Uncertain Reward Model [27.40414952747553]
本稿では、優先データから生じる報酬分布を学習するための確率的不確実リワードモデル(PURM)を提案する。
PURMは従来の手法よりも精度が高く,不確実性も高いことを示す。
論文 参考訳(メタデータ) (2025-03-28T14:39:52Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。
本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。
本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文 参考訳(メタデータ) (2024-09-26T04:28:35Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。