Fugu-MT 論文翻訳(概要): Generalist Reward Models: Found Inside Large Language Models

論文の概要: Generalist Reward Models: Found Inside Large Language Models

arxiv url: http://arxiv.org/abs/2506.23235v1
Date: Sun, 29 Jun 2025 13:45:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.784159
Title: Generalist Reward Models: Found Inside Large Language Models
Title（参考訳）: Generalist Reward Models: 大きな言語モデルの中に見つかる
Authors: Yi-Chen Li, Tian Xu, Yang Yu, Xuqin Zhang, Xiong-Hui Chen, Zhongxiang Ling, Ningjing Chao, Lei Yuan, Zhi-Hua Zhou,
Abstract要約: 我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
参考スコア（独自算出の注目度）: 50.7432354447554
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The alignment of Large Language Models (LLMs) is critically dependent on reward models trained on costly human preference data. While recent work explores bypassing this cost with AI feedback, these methods often lack a rigorous theoretical foundation. In this paper, we discover that a powerful generalist reward model is already latently present within any LLM trained via standard next-token prediction. We prove that this endogenous reward is not a heuristic, but is theoretically equivalent to a reward function learned through offline inverse reinforcement learning. This connection allows us to directly elicit a high-quality reward signal from a base (pre-trained or supervised fine-tuned) model without any further training. Critically, we also prove that subsequent reinforcement learning using this endogenous reward leads to a policy with a provably superior error bound compared to the base model. To our best knowledge, this is the first theoretical proof of the effectiveness of reinforcement learning for LLMs. Our experiments validate this theory, demonstrating that our method not only outperforms existing LLM-as-a-judge approaches but can also surpass explicitly trained reward models. These findings suggest that the reward modeling stage can be replaced by a principled method of eliciting the knowledge already captured during pre-training, heralding a more efficient, powerful, and scalable paradigm for LLMs alignment as well as multi-modal models.
Abstract（参考訳）: 大規模言語モデル(LLM)のアライメントは、費用がかかる人間の嗜好データに基づいてトレーニングされた報酬モデルに依存している。最近の研究では、このコストをAIのフィードバックで回避することを検討しているが、これらの手法には厳格な理論的基盤が欠如していることが多い。本稿では,次世代の予測手法を用いて学習した LLM 内に,強力なジェネラリスト報酬モデルが存在することを明らかにする。この内因性報酬はヒューリスティックではなく、理論的にはオフライン逆強化学習によって学習された報酬関数と等価であることを示す。この接続により、さらなるトレーニングをすることなく、ベース(事前訓練または教師付き微調整)モデルから高品質な報酬信号を直接引き出すことができる。また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つ政策につながることを証明した。我々の知る限り、LLMにおける強化学習の有効性の理論的証明としてはこれが初めてである。実験により,本手法が既存のLCM-as-a-judgeアプローチより優れているだけでなく,明示的に訓練された報酬モデルを上回ることができることを示した。これらの結果から,LLMのアライメントやマルチモーダルモデルに対して,より効率的でパワフルでスケーラブルなパラダイムを提唱し,事前学習中に獲得した知識を抽出する原理的手法に置き換えることが可能であることが示唆された。

関連論文リスト

One Token to Fool LLM-as-a-Judge [31.421917676213415]
ジェネレーティブ報酬モデル(LLMs-as-judgesとも呼ばれる)は、強化学習においてますます採用されている。生成報酬モデルが表面操作に驚くべき脆弱性を示すことを示す。我々は、単純だが効果的なデータ拡張戦略を導入し、ロバスト性を大幅に向上した新しい生成報酬モデルを訓練する。
論文参考訳（メタデータ） (2025-07-11T17:55:22Z)
ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。 GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文参考訳（メタデータ） (2025-07-03T17:44:55Z)
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文参考訳（メタデータ） (2025-06-03T07:44:31Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文参考訳（メタデータ） (2023-01-26T18:07:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。