論文の概要: Reward Model Perspectives: Whose Opinions Do Reward Models Reward?
- arxiv url: http://arxiv.org/abs/2510.06391v1
- Date: Tue, 07 Oct 2025 19:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.164882
- Title: Reward Model Perspectives: Whose Opinions Do Reward Models Reward?
- Title(参考訳): Reward Model Perspectives: Reward Models Reward?
- Authors: Elle,
- Abstract要約: リワードモデル(RM)は言語モデル(LM)のアライメントの中心である
我々の研究は、RMが捉えた意見のアライメントを測定するためのフレームワークを定式化する。
RMはいくつかの集団と不整合であり,有害なステレオタイプを体系的に報酬することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are central to the alignment of language models (LMs). An RM often serves as a proxy for human preferences to guide downstream LM behavior. However, our understanding of RM behavior is limited. Our work (i) formalizes a framework for measuring the alignment of opinions captured by RMs, (ii) investigates the extent to which RMs demonstrate sociodemographic biases, and (iii) explores the effects of prompting to steer rewards towards the preferences of a target group. We study the subjective and diverse perspectives on controversial topics, which allows us to quantify RM perspectives in terms of their opinions, attitudes, and values. We show that RMs are poorly aligned with several demographic groups and can systematically reward harmful stereotypes, and steering alone is not enough to overcome these limitations. Our findings underscore the need for more careful consideration of RM behavior in model alignment during preference learning to prevent the propagation of unwanted social biases in the language technologies that we use.
- Abstract(参考訳): リワードモデル (RM) は言語モデル (LM) のアライメントの中心である。
RMはしばしば、下流のLM動作を誘導する人間の嗜好のプロキシとして機能する。
しかし、RMの挙動に対する我々の理解は限られている。
作品
一 RMが捉えた意見の整合性を測定するための枠組みを定式化する。
(二)RMが社会デマロジカルな偏見を示す程度を調査し、
(三)対象グループの嗜好に対する報奨の促進効果を探る。
議論の的となっているトピックに対する主観的・多様な視点について検討し、それらの意見、態度、価値観の観点からRMの視点を定量化することができる。
RMはいくつかの集団と不整合であり, 有害なステレオタイプを体系的に報酬することができることが示され, ステアリングだけではこれらの制限を克服するには不十分である。
本研究は、言語技術における不必要な社会的バイアスの伝播を防止するため、嗜好学習におけるモデルアライメントにおけるRM行動のより慎重な検討の必要性を明らかにするものである。
関連論文リスト
- Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2025-05-29T14:26:53Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。