論文の概要: Reward Models Inherit Value Biases from Pretraining
- arxiv url: http://arxiv.org/abs/2601.20838v1
- Date: Wed, 28 Jan 2026 18:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.097892
- Title: Reward Models Inherit Value Biases from Pretraining
- Title(参考訳): Reward Models Inherit Value Biases from Pretraining
- Authors: Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang, Vincent Adam, Hannah Rose Kirk, Christopher Summerfield, Tsvetomira Dumbalska,
- Abstract要約: リワードモデル(RM)は、大きな言語モデルと人間の価値の整合の中心である。
RMは, 基本モデルの関数として, 多次元の人的価値に有意な差が認められた。
この研究は、事前訓練段階における安全と整合性の重要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 4.004014851264611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are central to aligning large language models (LLMs) with human values but have received less attention than pre-trained and post-trained LLMs themselves. Because RMs are initialized from LLMs, they inherit representations that shape their behavior, but the nature and extent of this influence remain understudied. In a comprehensive study of 10 leading open-weight RMs using validated psycholinguistic corpora, we show that RMs exhibit significant differences along multiple dimensions of human value as a function of their base model. Using the "Big Two" psychological axes, we show a robust preference of Llama RMs for "agency" and a corresponding robust preference of Gemma RMs for "communion." This phenomenon holds even when the preference data and finetuning process are identical, and we trace it back to the logits of the respective instruction-tuned and pre-trained models. These log-probability differences themselves can be formulated as an implicit RM; we derive usable implicit reward scores and show that they exhibit the very same agency/communion difference. We run experiments training RMs with ablations for preference data source and quantity, which demonstrate that this effect is not only repeatable but surprisingly durable. Despite RMs being designed to represent human preferences, our evidence shows that their outputs are influenced by the pretrained LLMs on which they are based. This work underscores the importance of safety and alignment efforts at the pretraining stage, and makes clear that open-source developers' choice of base model is as much a consideration of values as of performance.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)を人間の価値と整合させることの中心であるが、事前訓練された後学習されたLLMよりもあまり注目されていない。
RMはLSMから初期化されているため、それらの行動を形成する表現を継承するが、この影響の性質と範囲はいまだ検討されていない。
検証された心理言語コーパスを用いた10種類のオープンウェイトRMの総合的研究において, RMは, 基本モデルの機能として, 人的価値の多次元に有意な差異を示すことを示した。
本研究では,「ビッグ2」心理学軸を用いて,ラマRMを「緊急」に,ジェマRMを「コミュニケーション」に,それに対応するロバストな嗜好を示す。
この現象は、選好データと微調整プロセスが同一である場合でも発生し、各命令調整済みおよび事前訓練済みモデルのロジットに遡る。
これらの対数確率差そのものは、暗黙のRMとして定式化することができ、使用可能な暗黙の報酬スコアを導き、それらが全く同じエージェンシー/コミュニケーションの差を示すことを示す。
我々は、好みのデータソースと量を短縮したRMを訓練し、この効果が繰り返し可能であるだけでなく、驚くほど耐久性があることを実証した。
RMは人間の好みを表すように設計されていますが、この証拠は、その出力がベースとなっている事前学習されたLLMの影響を受けていることを示しています。
この研究は、事前訓練段階における安全性とアライメントの努力の重要性を強調し、オープンソース開発者がベースモデルを選択することは、パフォーマンスと同じくらいの価値を考えることを明確にしている。
関連論文リスト
- Interpretable Reward Model via Sparse Autoencoder [16.903840987027912]
本稿では,Sparse Autoencoder-enhanced Reward Model(SARM)を紹介する。
SARMはLLMベースのRMの隠れた活性化を解釈可能でスパースで単意味的な特徴空間にマッピングする。
実験的な評価では、SARMは報酬割り当ての直接的特徴レベルの帰属を促進し、好みのシフトを動的に調整し、従来の報酬モデルよりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2025-08-12T08:41:00Z) - Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。