論文の概要: Better Language Model-Based Judging Reward Modeling through Scaling Comprehension Boundaries
- arxiv url: http://arxiv.org/abs/2508.18212v1
- Date: Mon, 25 Aug 2025 17:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.880823
- Title: Better Language Model-Based Judging Reward Modeling through Scaling Comprehension Boundaries
- Title(参考訳): 包括的境界のスケーリングによるよりよい言語モデルに基づく判断リワードモデリング
- Authors: Meiling Ning, Zhongbao Zhang, Junda Ye, Jiabao Guo, Qingyuan Guan,
- Abstract要約: 本稿では、説明に基づくスロットフレームワークを用いて予測を行う2段階のLMに基づく評価報酬モデルを提案する。
ヒューマンフィードバック(RLHF)からの強化学習とアウト・オブ・ディストリビューション(OOD)シナリオの両方において、ESFP-RMフレームワークはより安定的で一般化可能な報酬信号を提供する。
- 参考スコア(独自算出の注目度): 3.930598942647121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of LM-based judging reward modeling, represented by generative reward models, has successfully made reinforcement learning from AI feedback (RLAIF) efficient and scalable. To further advance this paradigm, we propose a core insight: this form of reward modeling shares fundamental formal consistency with natural language inference (NLI), a core task in natural language understanding. This reframed perspective points to a key path for building superior reward models: scaling the model's comprehension boundaries. Pursuing this path, exploratory experiments on NLI tasks demonstrate that the slot prediction masked language models (MLMs) incorporating contextual explanations achieve significantly better performance compared to mainstream autoregressive models. Based on this key finding, we propose ESFP-RM, a two-stage LM-based judging reward model that utilizes an explanation based slot framework for prediction to fully leverage the advantages of MLMs. Extensive experiments demonstrate that in both reinforcement learning from human feedback (RLHF) and out-of-distribution (OOD) scenarios, the ESFP-RM framework delivers more stable and generalizable reward signals compared to generative reward models.
- Abstract(参考訳): 生成的報酬モデルに代表されるLMに基づく判断報酬モデリングの出現は、AIフィードバック(RLAIF)からの強化学習を効率的かつスケーラブルなものにすることに成功している。
このパラダイムをさらに進めるために、我々は、自然言語理解における中核的な課題である自然言語推論(NLI)と基本的形式的整合性を共有する報酬モデリングの形式を提案する。
この再編成された視点は、優れた報酬モデルを構築するための重要な経路を示している。
この経路からNLIタスクの探索実験により、文脈的説明を取り入れたスロット予測言語モデル(MLM)が、主流の自己回帰モデルと比較して大幅に性能が向上することを示した。
そこで本研究では,MLMの利点を十分に活用するために,説明ベーススロットフレームワークを用いた2段階の判断報酬モデルであるESFP-RMを提案する。
ESFP-RMフレームワークは、人間からのフィードバックからの強化学習(RLHF)とアウト・オブ・ディストリビューション(OOD)のシナリオの両方において、生成的報酬モデルよりも安定で一般化可能な報酬信号を提供する。
関連論文リスト
- Libra: Assessing and Improving Reward Model by Learning to Think [37.22776255575947]
推論シナリオにおける既存の報酬モデルベンチマークの限界に対処するために、推論指向ベンチマーク(Libra Bench)を提案する。
本稿では,学習から思考までの手法を用いて,生成報酬モデルを改善する新しい手法を提案する。
我々は,様々なベンチマークで最新の結果が得られる推論機能を備えた生成的報酬モデルであるLibra-RMシリーズを開発した。
論文 参考訳(メタデータ) (2025-07-29T10:02:43Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。
この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。
また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文 参考訳(メタデータ) (2025-06-29T13:45:54Z) - Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment [0.618727087412292]
大規模言語モデル(LLM)のアライメントは、有用で無害なコンテンツを生成するために不可欠である。
既存のアプローチでは、好みに基づく人間のフィードバックデータを利用して報酬関数を学習する。
近似変分アライメント学習(AVRIL)によるLLMアライメントを実現するための新しいトレーニング目標である近似変分アライメント(AVA)を提案する。
論文 参考訳(メタデータ) (2024-11-14T10:37:34Z) - DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文 参考訳(メタデータ) (2024-07-01T17:01:54Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [20.77694584450457]
GLoREは、多様なデータセットを統合し、それらを大きな言語モデルを評価するための統一フォーマットに標準化するプラットフォームである。
実験結果から,OpenAIのo1 miniやDeepSeek R1,QwQ-32Bといった大規模推論モデルの論理的推論能力は,人体の性能と教師付き微調整モデルと比較して著しく向上したことがわかった。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。