論文の概要: Reward Model Interpretability via Optimal and Pessimal Tokens
- arxiv url: http://arxiv.org/abs/2506.07326v1
- Date: Sun, 08 Jun 2025 23:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.763105
- Title: Reward Model Interpretability via Optimal and Pessimal Tokens
- Title(参考訳): 最適およびペシミカルトークンによる逆モデル解釈可能性
- Authors: Brian Christian, Hannah Rose Kirk, Jessica A. F. Thompson, Christopher Summerfield, Tsvetomira Dumbalska,
- Abstract要約: リワードモデリングは、大きな言語モデルと人間の価値を整合させる上で重要な要素として現れてきた。
本稿では,各語彙空間全体にわたる応答の包括的解析を通じて,報酬モデル解釈可能性に対する新たなアプローチを提案する。
これらのモデルは特定のアイデンティティグループに対するバイアスをエンコードすることができ、これは無害トレーニングの意図しない結果として現れる可能性がある。
- 参考スコア(独自算出の注目度): 4.951383975460995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward modeling has emerged as a crucial component in aligning large language models with human values. Significant attention has focused on using reward models as a means for fine-tuning generative models. However, the reward models themselves -- which directly encode human value judgments by turning prompt-response pairs into scalar rewards -- remain relatively understudied. We present a novel approach to reward model interpretability through exhaustive analysis of their responses across their entire vocabulary space. By examining how different reward models score every possible single-token response to value-laden prompts, we uncover several striking findings: (i) substantial heterogeneity between models trained on similar objectives, (ii) systematic asymmetries in how models encode high- vs low-scoring tokens, (iii) significant sensitivity to prompt framing that mirrors human cognitive biases, and (iv) overvaluation of more frequent tokens. We demonstrate these effects across ten recent open-source reward models of varying parameter counts and architectures. Our results challenge assumptions about the interchangeability of reward models, as well as their suitability as proxies of complex and context-dependent human values. We find that these models can encode concerning biases toward certain identity groups, which may emerge as unintended consequences of harmlessness training -- distortions that risk propagating through the downstream large language models now deployed to millions.
- Abstract(参考訳): リワードモデリングは、大きな言語モデルと人間の価値を整合させる上で重要な要素として現れてきた。
重要な関心は、報酬モデルを微調整生成モデルのための手段として利用することに集中している。
しかし、報酬モデルそのもの -- 即応対をスカラー報酬に変換することで、人的価値判断を直接符号化する -- は、まだ比較的検討されていない。
本稿では,各語彙空間全体にわたる応答の包括的解析を通じて,報酬モデル解釈可能性に対する新たなアプローチを提案する。
異なる報酬モデルが、価値に満ちたプロンプトに対するあらゆる可能なシングルトーケントレスポンスをどうやってスコアするかを調べることで、いくつかの顕著な結果が明らかになりました。
(i)類似の目的に基づいて訓練されたモデル間の実質的な不均一性
(II) モデルが高階と低階のトークンをエンコードする方法の体系的な対称性。
三 人間の認知バイアスを反映するフレーミングを促すための重要な感度、及び
(4)より頻繁なトークンの過大評価。
パラメータ数とアーキテクチャの異なる10の最近のオープンソース報酬モデルに対して、これらの効果を実証する。
その結果、報酬モデルの交換可能性や、複雑で文脈に依存した人間の価値のプロキシとしての適合性に関する仮定に挑戦した。
これらのモデルは特定のアイデンティティグループに対するバイアスをエンコードすることができ、これは無害トレーニングの意図しない結果として現れる可能性がある。
関連論文リスト
- Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style [37.97757796124621]
RM-Benchは、微妙な内容の違いに対する感度とスタイルバイアスに対する耐性に基づいて報酬モデルを評価するために設計された新しいベンチマークである。
RM-Bench上で40近い報酬モデルを評価し,最先端モデルでさえ平均性能は46.6%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-21T16:48:26Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。