論文の概要: Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards
- arxiv url: http://arxiv.org/abs/2510.23083v1
- Date: Mon, 27 Oct 2025 07:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.489002
- Title: Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards
- Title(参考訳): より小さなモデル、より賢いリワード: プロセスとアウトカムリワードに対する2段階のアプローチ
- Authors: Jan Niklas Groeneveld, Xi Qin, Alexander Schaefer, Yaad Oren,
- Abstract要約: 本稿では,最先端の小型言語モデルが有用報酬モデルに変換できるかどうかを考察する。
我々はAPPS符号化チャレンジベンチマークから得られた正当性ラベル付きコードサンプルのデータセットを構築した。
この批判を用いて、複数世代にわたる最も正確なコードの検索能力を20%以上改善する。
- 参考スコア(独自算出の注目度): 40.23960862004138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating high-quality code remains a challenge for Large Language Models (LLMs). For the evolution of reasoning models on this task, reward models are a necessary intermediate step. These models judge outcomes or intermediate steps. Decoder-only transformer models can be turned into reward models by introducing a regression layer and supervised fine-tuning. While it is known that reflection capabilities generally increase with the size of a model, we want to investigate whether state-of-the-art small language models like the Phi-4 family can be turned into usable reward models blending the consideration of process rewards and outcome rewards. Targeting this goal, we construct a dataset of code samples with correctness labels derived from the APPS coding challenge benchmark. We then train a value-head model to estimate the success probability of intermediate outputs. Our evaluation shows that small LLMs are capable of serving as effective reward models or code evaluation critics, successfully identifying correct solutions among multiple candidates. Using this critic, we achieve over a 20% improvement in the search capability of the most accurate code out of multiple generations.
- Abstract(参考訳): 高品質なコードを生成することは、Large Language Models(LLMs)にとって依然として課題である。
このタスクにおける推論モデルの進化には、報酬モデルが必須の中間ステップである。
これらのモデルは結果または中間ステップを判断する。
デコーダのみのトランスモデルをレグレッション層を導入し、微調整を監督することで、報酬モデルに変換することができる。
モデルのサイズによってリフレクション機能が一般的に増加することは知られているが、Phi-4ファミリーのような最先端の小型言語モデルが、プロセス報酬と結果報酬の考慮をブレンドした有用報酬モデルに変換できるかどうかを考察したい。
この目標を達成するため、APPS符号化チャレンジベンチマークから得られた正当性ラベル付きコードサンプルのデータセットを構築した。
次に、中間出力の成功確率を推定するためにバリューヘッドモデルを訓練する。
評価の結果,少人数のLLMは効果的な報酬モデルやコード評価評論家として機能し,複数の候補間の正しい解の同定に成功していることがわかった。
この批判を用いて、複数世代にわたる最も正確なコードの検索能力を20%以上改善する。
関連論文リスト
- Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - Self-Correcting Code Generation Using Small Language Models [20.68323406228016]
自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。
マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。
1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-29T04:04:44Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。