論文の概要: Why is Your Language Model a Poor Implicit Reward Model?
- arxiv url: http://arxiv.org/abs/2507.07981v1
- Date: Thu, 10 Jul 2025 17:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.527877
- Title: Why is Your Language Model a Poor Implicit Reward Model?
- Title(参考訳): なぜ言語モデルが不適切なリワードモデルなのか?
- Authors: Noam Razin, Yong Lin, Jiarui Yao, Sanjeev Arora,
- Abstract要約: 最近の研究は、すべての言語モデルが暗黙の報酬モデル(IM-RM)を定義することを示した。
IM-RMは、明示的な報酬モデル(EX-RM)と比較して、特に分布外において、より良く一般化する傾向がある
- 参考スコア(独自算出の注目度): 37.06237751285227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Towards a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
- Abstract(参考訳): リワードモデルは、トレーニング後の言語モデルと推論パイプラインの鍵となるものだ。
同様に最近の研究は、アーキテクチャの変更を必要とせずに、すべての言語モデルが暗黙の報酬モデル(IM-RM)を定義することを示した。
しかしながら、そのようなIM-RMは、言語モデルの隠された表現に対して専用線形ヘッドを適用する明示的な報酬モデル(EX-RM)と比較して、特に分布外において、より一般化する傾向にある。
EX-RMとIM-RMはほぼ同一であるため、一般化ギャップの存在は曖昧である。
それらは同じデータ、損失関数、言語モデルを使ってトレーニングすることができ、報酬の計算方法によってのみ異なる。
異なる報酬モデル型に基づく暗黙バイアスの根本的な理解に向けて、このギャップの根本原因について検討する。
我々の主な発見は理論と実験によって裏付けられ、IM-RMは表面的なトークンレベルの手がかりに大きく依存している。
その結果、トークンレベルの分散シフトの下では、EX-RMよりもよく一般化される。
さらに、一般化ギャップの代替仮説に対する証拠を提供する。
最も注目すべきは、IM-RMが検証器とジェネレータの両方を動作させるため、生成が検証よりも難しいタスクで苦労しているという直感的な主張に挑戦することである。
まとめて、我々の結果は、一見小さな設計上の選択が報酬モデルの一般化行動に大きく影響を与えることを強調した。
関連論文リスト
- Listener-Rewarded Thinking in VLMs for Image Preferences [38.07052490646366]
視覚報酬モデルをトレーニングするためのリスナー強化GRPOフレームワークを提案する。
我々のリスナー型報酬方式は,ImageRewardベンチマークにおいて最も精度が高い。
これらの結果から、聞き手による報酬は、視覚言語モデルと微妙な人間の嗜好を整合させる、スケーラブルでデータ効率のよい経路を提供することが示された。
論文 参考訳(メタデータ) (2025-06-28T09:53:17Z) - Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - "Patriarchy Hurts Men Too." Does Your Model Agree? A Discussion on Fairness Assumptions [3.706222947143855]
グループフェアネスの文脈では、このアプローチはデータへのバイアスの導入方法に関する暗黙の仮定を曖昧にすることが多い。
我々は偏りの過程が公正スコアの単調関数であり、感度属性のみに依存すると仮定している。
偏見過程の振舞いは単なる単調性よりも複雑であり、つまり暗黙の仮定を特定し、否定する必要がある。
論文 参考訳(メタデータ) (2024-08-01T07:06:30Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。