論文の概要: SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder
- arxiv url: http://arxiv.org/abs/2511.07896v1
- Date: Wed, 12 Nov 2025 01:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.530087
- Title: SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder
- Title(参考訳): SparseRM: スパースオートエンコーダを用いた軽量な選好モデリング
- Authors: Dengcan Liu, Jiahao Li, Zheren Fu, Yi Tu, Jiajun Li, Zhendong Mao, Yongdong Zhang,
- Abstract要約: リワードモデル(Reward Model、RM)は、人間の嗜好評価と誘導モデルアライメントのためのプロキシである。
Sparse Autoencoder (SAE) を利用してモデル表現に符号化された嗜好関連情報を抽出するSparseRMを提案する。
SparseRMは、トレーニング可能なパラメータの1%未満を使用しながら、ほとんどのメインストリームのRMよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 54.31950189922548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are a core component in the post-training of large language models (LLMs), serving as proxies for human preference evaluation and guiding model alignment. However, training reliable RMs under limited resources remains challenging due to the reliance on large-scale preference annotations and the high cost of fine-tuning LLMs. To address this, we propose SparseRM, which leverages Sparse Autoencoder (SAE) to extract preference-relevant information encoded in model representations, enabling the construction of a lightweight and interpretable reward model. SparseRM first employs SAE to decompose LLM representations into interpretable directions that capture preference-relevant features. The representations are then projected onto these directions to compute alignment scores, which quantify the strength of each preference feature in the representations. A simple reward head aggregates these scores to predict preference scores. Experiments on three preference modeling tasks show that SparseRM achieves superior performance over most mainstream RMs while using less than 1% of trainable parameters. Moreover, it integrates seamlessly into downstream alignment pipelines, highlighting its potential for efficient alignment.
- Abstract(参考訳): Reward Model(RM)は、大規模言語モデル(LLM)のポストトレーニングにおける中核的なコンポーネントであり、人間の嗜好評価とモデルアライメントを導くためのプロキシとして機能する。
しかし、大規模な嗜好アノテーションと微調整LDMの高コストに依存するため、限られたリソース下での信頼性RMのトレーニングは依然として困難である。
そこで本研究では,Sparse Autoencoder(SAE)を利用して,モデル表現に符号化された嗜好関連情報を抽出し,軽量かつ解釈可能な報酬モデルの構築を可能にするSparseRMを提案する。
SparseRM はまず SAE を用いて LLM 表現を解釈可能な方向へ分解し、好みに関連する特徴をキャプチャする。
表現はこれらの方向に向けて投影され、アライメントスコアを計算し、表現における各好みの特徴の強さを定量化する。
単純な報酬ヘッドはこれらのスコアを集計し、好みのスコアを予測する。
3つの選好モデリングタスクの実験により、SparseRMはトレーニング可能なパラメータの1%未満を使用しながら、ほとんどのメインストリームのRMよりも優れた性能を達成することが示された。
さらに、下流アライメントパイプラインにシームレスに統合することで、効率的なアライメントの可能性を強調している。
関連論文リスト
- Toward Preference-aligned Large Language Models via Residual-based Model Steering [9.241565393225953]
本稿では,Residual Steering (PaLRS) を用いた大規模言語モデルの参照アライメントを提案する。
PaLRSは、Large Language Modelsの残留ストリームに符号化された好み信号を利用する。
各種小型オープンソースLLM上でのPaLRSの評価を行った。
論文 参考訳(メタデータ) (2025-09-28T17:16:16Z) - Interpretable Reward Model via Sparse Autoencoder [16.903840987027912]
本稿では,Sparse Autoencoder-enhanced Reward Model(SARM)を紹介する。
SARMはLLMベースのRMの隠れた活性化を解釈可能でスパースで単意味的な特徴空間にマッピングする。
実験的な評価では、SARMは報酬割り当ての直接的特徴レベルの帰属を促進し、好みのシフトを動的に調整し、従来の報酬モデルよりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2025-08-12T08:41:00Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
我々はHyPERを紹介した。HyPERは、人間または言語モデル(LM)にアノテーションを付与するハイブリッド推論ルータである。
その結果,HyPERを用いた人工選好と直接選好の混合は,RewardBenchでは7-13%しか使用せず,RM性能が向上していることがわかった。
また、HyPERの機能を分析した結果、安全上の懸念や複雑さが人間のフィードバックから最も恩恵を受けていることがわかりました。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Compositional preference models for aligning LMs [15.036426712762147]
構成的選好モデル(CPM)は、一つのグローバルな選好評価をいくつかの解釈可能な特徴に分解するフレームワークである。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。