論文の概要: One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models
- arxiv url: http://arxiv.org/abs/2603.03291v1
- Date: Fri, 06 Feb 2026 00:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.114419
- Title: One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models
- Title(参考訳): 1つのバイアス: 言語リワードモデルにおける機械的リワード整形と永続的バイアス
- Authors: Daniel Fein, Max Lamparth, Violet Xiang, Mykel J. Kochenderfer, Nick Haber,
- Abstract要約: リワードモデル(RM)は、言語モデルと人間の嗜好のオンラインアライメントに不可欠である。
最先端のRMを含む5つの高品質RMのバイアスを測定する。
本稿では, 急激な相関関係から生じる低複雑性バイアスを緩和するために, 簡単なポストホック介入を提案する。
- 参考スコア(独自算出の注目度): 32.15734141265721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward Models (RMs) are crucial for online alignment of language models (LMs) with human preferences. However, RM-based preference-tuning is vulnerable to reward hacking, whereby LM policies learn undesirable behaviors from flawed RMs. By systematically measuring biases in five high-quality RMs, including the state-of-the-art, we find that issues persist despite prior work with respect to length, sycophancy, and overconfidence. We also discover new issues related to bias toward model-specific styles and answer-order. We categorize RM failures by complexity and propose a simple post-hoc intervention to mitigate low-complexity biases that arise from spurious correlations. Our proposed mechanistic reward shaping reduces targeted biases without degrading reward quality and while using minimal labeled data. The method is extensible to new biases, model-internal, and generalizes out-of-distribution.
- Abstract(参考訳): リワードモデル(RM)は、言語モデル(LM)と人間の嗜好のオンラインアライメントに不可欠である。
しかし、RMベースの嗜好調整はハッキングの報奨に弱いため、LMポリシーは欠陥のあるRMから望ましくない振る舞いを学ぶ。
最先端のRMを含む5つの高品質RMのバイアスを体系的に測定することにより、長さ、梅毒、過剰な自信に関する先行研究にもかかわらず、問題は持続することがわかった。
また、モデル固有のスタイルや回答順序に対するバイアスに関する新しい問題も発見する。
我々は、RM故障を複雑さによって分類し、急激な相関から生じる低複雑さバイアスを軽減するための簡単なポストホック介入を提案する。
提案手法は,最小ラベル付きデータを用いて,報酬品質を劣化させることなく,目標バイアスを低減させる。
この方法は、新しいバイアスに拡張可能であり、モデル内部であり、配布外分布を一般化する。
関連論文リスト
- Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Eliminating Inductive Bias in Reward Models with Information-Theoretic Guidance [46.71732887299883]
リワードモデル(RM)は、人間のフィードバック(RLHF)からの強化学習において、大きな言語モデルと人間の価値の整合に不可欠である。
我々はtextbfRM (DIR) のための textbfInformation 最適化による textbfDebiasing と呼ばれる新しい情報理論的デバイアス手法を提案する。
情報理論の理論的正当化により、DIRは非線形相関でより洗練されたバイアスを処理できる。
論文 参考訳(メタデータ) (2025-12-29T13:39:41Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Reward Model Perspectives: Whose Opinions Do Reward Models Reward? [0.0]
リワードモデル(RM)は言語モデル(LM)のアライメントの中心である
我々の研究は、RMが捉えた意見のアライメントを測定するためのフレームワークを定式化する。
RMはいくつかの集団と不整合であり,有害なステレオタイプを体系的に報酬することができることを示す。
論文 参考訳(メタデータ) (2025-10-07T19:13:52Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。