論文の概要: Generalist Reward Models: Found Inside Large Language Models
- arxiv url: http://arxiv.org/abs/2506.23235v1
- Date: Sun, 29 Jun 2025 13:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.784159
- Title: Generalist Reward Models: Found Inside Large Language Models
- Title(参考訳): Generalist Reward Models: 大きな言語モデルの中に見つかる
- Authors: Yi-Chen Li, Tian Xu, Yang Yu, Xuqin Zhang, Xiong-Hui Chen, Zhongxiang Ling, Ningjing Chao, Lei Yuan, Zhi-Hua Zhou,
- Abstract要約: 我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。
この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。
また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
- 参考スコア(独自算出の注目度): 50.7432354447554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The alignment of Large Language Models (LLMs) is critically dependent on reward models trained on costly human preference data. While recent work explores bypassing this cost with AI feedback, these methods often lack a rigorous theoretical foundation. In this paper, we discover that a powerful generalist reward model is already latently present within any LLM trained via standard next-token prediction. We prove that this endogenous reward is not a heuristic, but is theoretically equivalent to a reward function learned through offline inverse reinforcement learning. This connection allows us to directly elicit a high-quality reward signal from a base (pre-trained or supervised fine-tuned) model without any further training. Critically, we also prove that subsequent reinforcement learning using this endogenous reward leads to a policy with a provably superior error bound compared to the base model. To our best knowledge, this is the first theoretical proof of the effectiveness of reinforcement learning for LLMs. Our experiments validate this theory, demonstrating that our method not only outperforms existing LLM-as-a-judge approaches but can also surpass explicitly trained reward models. These findings suggest that the reward modeling stage can be replaced by a principled method of eliciting the knowledge already captured during pre-training, heralding a more efficient, powerful, and scalable paradigm for LLMs alignment as well as multi-modal models.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントは、費用がかかる人間の嗜好データに基づいてトレーニングされた報酬モデルに依存している。
最近の研究では、このコストをAIのフィードバックで回避することを検討しているが、これらの手法には厳格な理論的基盤が欠如していることが多い。
本稿では,次世代の予測手法を用いて学習した LLM 内に,強力なジェネラリスト報酬モデルが存在することを明らかにする。
この内因性報酬はヒューリスティックではなく、理論的にはオフライン逆強化学習によって学習された報酬関数と等価であることを示す。
この接続により、さらなるトレーニングをすることなく、ベース(事前訓練または教師付き微調整)モデルから高品質な報酬信号を直接引き出すことができる。
また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つ政策につながることを証明した。
我々の知る限り、LLMにおける強化学習の有効性の理論的証明としてはこれが初めてである。
実験により,本手法が既存のLCM-as-a-judgeアプローチより優れているだけでなく,明示的に訓練された報酬モデルを上回ることができることを示した。
これらの結果から,LLMのアライメントやマルチモーダルモデルに対して,より効率的でパワフルでスケーラブルなパラダイムを提唱し,事前学習中に獲得した知識を抽出する原理的手法に置き換えることが可能であることが示唆された。
関連論文リスト
- Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。