論文の概要: reward-lens: A Mechanistic Interpretability Library for Reward Models
- arxiv url: http://arxiv.org/abs/2604.26130v1
- Date: Tue, 28 Apr 2026 21:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.175881
- Title: reward-lens: A Mechanistic Interpretability Library for Reward Models
- Title(参考訳): reward-lens:リワードモデルのための機械的解釈可能性ライブラリ
- Authors: Mohammed Suhail B Nadaf,
- Abstract要約: このツールキットを報酬モデルに移植するオープンソースライブラリである reward-lens を提示する。
このライブラリは、Reward Lens、コンポーネント属性、3モードアクティベーションパッチ、報奨型プローブスイート、TopK SAE機能属性を提供する。
695 RewardBench対における2つの生産報酬モデルについて検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every RLHF-trained language model is shaped by a reward model, yet the mechanistic interpretability toolkit -- logit lens, direct logit attribution, activation patching, sparse autoencoders -- was built for generative LLMs whose primitives all project onto a vocabulary unembedding. Reward models replace that with a scalar regression head, breaking each tool. We present reward-lens, an open-source library that ports this toolkit to reward models, organised around one observation: the reward head's weight vector $w_r$ is the natural axis for every interpretability question. The library provides a Reward Lens, component attribution, three-mode activation patching, a reward-hacking probe suite, TopK SAE feature attribution, cross-model comparison, and five theory-grounded extensions (distortion index, divergence-aware patching, misalignment cascade detection, reward-term conflict analysis, concept-vector analysis). A ten-method adapter protocol covers Llama, Mistral, Gemma-2, and ArmoRM multi-objective heads, with a generic adapter for any HuggingFace sequence classification model. We validate on two production reward models across ~695 RewardBench pairs. The central empirical finding is negative: linear attribution does not predict causal patching effects (mean Spearman $ρ= -0.256$ on Skywork, $-0.027$ on ArmoRM). The framework treats this disagreement as a property to expose, not a bug -- motivating a design that keeps observational and causal views first-class and directly comparable.
- Abstract(参考訳): すべてのRLHFトレーニング言語モデルは報酬モデルによって形作られていますが、機械論的解釈可能性ツールキット -- ログレンズ、直接ロジット属性、アクティベーションパッチ、スパースオートエンコーダ -- は、すべてのプリミティブが語彙アンエンベディングに投影されるジェネレーションLLMのために構築されました。
Rewardモデルはそれをスカラー回帰ヘッドに置き換え、各ツールを壊します。
報酬ヘッドの重みベクトル$w_r$は、すべての解釈可能性問題に対する自然な軸である。
このライブラリは、Reward Lens、コンポーネント属性、3モードアクティベーションパッチ、報酬ハックプローブスイート、TopK SAE機能属性、クロスモデル比較、および5つの理論基底拡張(歪みインデックス、分散認識パッチ、誤調整カスケード検出、報酬項競合分析、概念ベクトル分析)を提供する。
10メソッドのアダプタプロトコルは、Llama、Mistral、Gemma-2、ArmoRMの多目的ヘッドをカバーしており、HuggingFaceシーケンス分類モデルの汎用アダプタである。
約695 RewardBenchペア間の2つの生産報酬モデルを検証する。
線形帰属は因果パッチ効果を予測しない(Spearman $ρ= -0.256$ on Skywork, $-0.027$ on ArmoRM)。
このフレームワークは、この不一致を、バグではなく、公開するプロパティとして扱う。
関連論文リスト
- The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。