論文の概要: SteerRM: Debiasing Reward Models via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2603.12795v1
- Date: Fri, 13 Mar 2026 08:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.006013
- Title: SteerRM: Debiasing Reward Models via Sparse Autoencoders
- Title(参考訳): SteerRM: スパースオートエンコーダによるリワードモデルのデバイアス
- Authors: Mengyuan Sun, Zhuohao Yu, Weizheng Gu, Shikun Zhang, Wei Ye,
- Abstract要約: SteerRMは、Sparse Autoencoder(SAE)ベースの介入を使用して報酬モデルのバイアスを軽減するための、最初のトレーニング不要な方法である。
RM-Benchの6つの報酬モデルの中で、SteerRMはハードスプリットの精度を平均7.3ポイント改善し、全体的な性能を維持している。
- 参考スコア(独自算出の注目度): 28.922614335072414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are critical components of alignment pipelines, yet they exhibit biases toward superficial stylistic cues, preferring better-presented responses over semantically superior ones. Existing debiasing methods typically require retraining or architectural modifications, while direct activation suppression degrades performance due to representation entanglement. We propose SteerRM, the first training-free method for debiasing reward models using Sparse Autoencoder (SAE)-based interventions. SteerRM isolates stylistic effects using contrastive paired responses, identifies bias-related SAE features with a strength-stability criterion, and suppresses them at inference time. Across six reward models on RM-Bench, SteerRM improves Hard-split accuracy by 7.3 points on average while preserving overall performance. Results on a Gemma-based reward model and a controlled non-format bias further suggest generalization across RM architectures and bias types. We further find that format-related features are concentrated in shallow layers and transfer across models, revealing shared architecture-level bias encoding patterns. These results show that SAE-based interventions can mitigate reward-model biases without retraining, providing a practical and interpretable solution for alignment pipelines.
- Abstract(参考訳): リワードモデル(RM)はアライメントパイプラインの重要な構成要素であるが、表面的なスタイリスティックな方法へのバイアスを示し、セマンティックに優れているものよりも表現された応答を優先する。
既存のデバイアス法は、通常、再訓練やアーキテクチャの変更を必要とするが、直接的なアクティベーションの抑制は、表現の絡み合いによって性能が低下する。
本稿では,Sparse Autoencoder (SAE) を用いた報酬モデルのバイアス軽減のための,最初のトレーニング不要な手法であるSteerRMを提案する。
SteerRMは、対照的なペア応答を用いてスタイリスティックな効果を分離し、バイアスに関連したSAE特徴を強度安定性基準で識別し、推論時にそれらを抑制する。
RM-Benchの6つの報酬モデルの中で、SteerRMはハードスプリットの精度を平均7.3ポイント改善し、全体的な性能を維持している。
Gemmaベースの報酬モデルと制御された非形式バイアスの結果は、RMアーキテクチャとバイアスタイプ間の一般化をさらに示唆している。
さらに、フォーマット関連の機能は浅い層に集中し、モデル間を移動することで、アーキテクチャレベルのバイアス符号化パターンの共有が明らかになる。
これらの結果から,SAEベースの介入はリトレーニングを伴わずに報酬モデルバイアスを緩和し,アライメントパイプラインの実用的で解釈可能なソリューションを提供することが示された。
関連論文リスト
- CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。