論文の概要: Interpretable Reward Model via Sparse Autoencoder
- arxiv url: http://arxiv.org/abs/2508.08746v1
- Date: Tue, 12 Aug 2025 08:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.354751
- Title: Interpretable Reward Model via Sparse Autoencoder
- Title(参考訳): スパースオートエンコーダによる解釈可能なリワードモデル
- Authors: Shuyi Zhang, Wei Shi, Sihang Li, Jiayi Liao, Tao Liang, Hengxing Cai, Xiang Wang,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は報酬モデル(RM)を人間の好みのプロキシとして活用し、行動と人間の価値を一致させる。
従来のRMには解釈性がなく、報酬の割り当ての背後にある推論について限定的な洞察を提供しており、ユーザの好みのシフトに対して柔軟である。
Sparse Autoencoder-enhanced Reward Model(textbfSARM)は,事前学習したSparse Autoencoderを報酬モデルに統合した新しいアーキテクチャである。
- 参考スコア(独自算出の注目度): 16.85040782529544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely deployed across numerous fields. Reinforcement Learning from Human Feedback (RLHF) leverages reward models (RMs) as proxies for human preferences to align LLM behaviors with human values, making the accuracy, reliability, and interpretability of RMs critical for effective alignment. However, traditional RMs lack interpretability, offer limited insight into the reasoning behind reward assignments, and are inflexible toward user preference shifts. While recent multidimensional RMs aim for improved interpretability, they often fail to provide feature-level attribution and require costly annotations. To overcome these limitations, we introduce the Sparse Autoencoder-enhanced Reward Model (\textbf{SARM}), a novel architecture that integrates a pretrained Sparse Autoencoder (SAE) into a reward model. SARM maps the hidden activations of LLM-based RM into an interpretable, sparse, and monosemantic feature space, from which a scalar head aggregates feature activations to produce transparent and conceptually meaningful reward scores. Empirical evaluations demonstrate that SARM facilitates direct feature-level attribution of reward assignments, allows dynamic adjustment to preference shifts, and achieves superior alignment performance compared to conventional reward models. Our code is available at https://github.com/schrieffer-z/sarm.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの分野に広くデプロイされている。
Reinforcement Learning from Human Feedback (RLHF) は報酬モデル(RM)を人間の嗜好のプロキシとして活用し、LLMの振る舞いを人間の価値観と整合させ、効果的なアライメントに重要なRMの正確性、信頼性、解釈性を実現する。
しかし、従来のRMは解釈可能性に欠けており、報酬の割り当ての背後にある推論について限られた洞察を与えており、ユーザの好みのシフトに対して柔軟である。
最近の多次元RMは、解釈可能性の向上を目的としているが、しばしば機能レベルの属性を提供しず、高価なアノテーションを必要とする。
これらの制約を克服するために、事前訓練されたスパースオートエンコーダ(SAE)を報酬モデルに統合する新しいアーキテクチャであるスパースオートエンコーダエンハンス・リワードモデル(\textbf{SARM})を導入する。
SARMは、LLMベースのRMの隠れた活性化を解釈可能、スパース、単意味の特徴空間にマッピングし、スカラーヘッドが特徴活性化を集約して透明で概念的に意味のある報酬スコアを生成する。
実験的な評価では、SARMは報酬の割り当ての直接的特徴レベルの帰属を促進し、好みのシフトを動的に調整し、従来の報酬モデルよりも優れたアライメント性能を実現する。
私たちのコードはhttps://github.com/schrieffer-z/sarm.comから入手可能です。
関連論文リスト
- Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment [36.52424795446663]
大きな言語モデル(LLM)は印象的な能力を示すが、人間の好みに注意深く対応する必要がある。
テストタイムアライメント手法は、報酬モデル(RM)を使用して凍結したLLMを再トレーニングせずにガイドすることでこの問題に対処する。
我々は、Autoregressive Reward Modelを活用するテスト時間アライメントアプローチであるGenARMを紹介する。
論文 参考訳(メタデータ) (2024-10-10T17:58:24Z) - Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。