論文の概要: Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards
- arxiv url: http://arxiv.org/abs/2510.23083v1
- Date: Mon, 27 Oct 2025 07:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.489002
- Title: Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards
- Title(参考訳): より小さなモデル、より賢いリワード: プロセスとアウトカムリワードに対する2段階のアプローチ
- Authors: Jan Niklas Groeneveld, Xi Qin, Alexander Schaefer, Yaad Oren,
- Abstract要約: 本稿では,最先端の小型言語モデルが有用報酬モデルに変換できるかどうかを考察する。
我々はAPPS符号化チャレンジベンチマークから得られた正当性ラベル付きコードサンプルのデータセットを構築した。
この批判を用いて、複数世代にわたる最も正確なコードの検索能力を20%以上改善する。
- 参考スコア(独自算出の注目度): 40.23960862004138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating high-quality code remains a challenge for Large Language Models (LLMs). For the evolution of reasoning models on this task, reward models are a necessary intermediate step. These models judge outcomes or intermediate steps. Decoder-only transformer models can be turned into reward models by introducing a regression layer and supervised fine-tuning. While it is known that reflection capabilities generally increase with the size of a model, we want to investigate whether state-of-the-art small language models like the Phi-4 family can be turned into usable reward models blending the consideration of process rewards and outcome rewards. Targeting this goal, we construct a dataset of code samples with correctness labels derived from the APPS coding challenge benchmark. We then train a value-head model to estimate the success probability of intermediate outputs. Our evaluation shows that small LLMs are capable of serving as effective reward models or code evaluation critics, successfully identifying correct solutions among multiple candidates. Using this critic, we achieve over a 20% improvement in the search capability of the most accurate code out of multiple generations.
- Abstract(参考訳): 高品質なコードを生成することは、Large Language Models(LLMs)にとって依然として課題である。
このタスクにおける推論モデルの進化には、報酬モデルが必須の中間ステップである。
これらのモデルは結果または中間ステップを判断する。
デコーダのみのトランスモデルをレグレッション層を導入し、微調整を監督することで、報酬モデルに変換することができる。
モデルのサイズによってリフレクション機能が一般的に増加することは知られているが、Phi-4ファミリーのような最先端の小型言語モデルが、プロセス報酬と結果報酬の考慮をブレンドした有用報酬モデルに変換できるかどうかを考察したい。
この目標を達成するため、APPS符号化チャレンジベンチマークから得られた正当性ラベル付きコードサンプルのデータセットを構築した。
次に、中間出力の成功確率を推定するためにバリューヘッドモデルを訓練する。
評価の結果,少人数のLLMは効果的な報酬モデルやコード評価評論家として機能し,複数の候補間の正しい解の同定に成功していることがわかった。
この批判を用いて、複数世代にわたる最も正確なコードの検索能力を20%以上改善する。
関連論文リスト
- BaNEL: Exploration Posteriors for Generative Modeling Using Only Negative Rewards [25.999630323726464]
BaNELは、失敗した試みのみを使用してモデルを訓練した後、報酬評価(NRE)の数を最小限にするアルゴリズムである。
複数のスパース・リワードタスクにおいて1つのサンプルを観察することなく,BaNELはモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-10-10T17:55:03Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - Self-Correcting Code Generation Using Small Language Models [20.68323406228016]
自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。
マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。
1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-29T04:04:44Z) - Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference [27.205035058481553]
我々は各文にスコアを割り当て、中間粒度の報酬モデルを導入することを提案する。
すべての文のスコアを応答レベルスコアに集約する新しい注意機構が導入された。
提案手法はRewardBench上で応答レベル報酬モデルを2.7%向上させる。
論文 参考訳(メタデータ) (2025-03-01T14:11:04Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。