論文の概要: Curing Miracle Steps in LLM Mathematical Reasoning with Rubric Rewards
- arxiv url: http://arxiv.org/abs/2510.07774v1
- Date: Thu, 09 Oct 2025 04:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.864085
- Title: Curing Miracle Steps in LLM Mathematical Reasoning with Rubric Rewards
- Title(参考訳): ルブリックリワードを用いたLLM数理推論におけるキュリングミラクルステップ
- Authors: Youliang Yuan, Qiuyang Mang, Jingbang Chen, Hong Wan, Xiaoyuan Liu, Junjielong Xu, Jen-tse Huang, Wenxuan Wang, Wenxiang Jiao, Pinjia He,
- Abstract要約: 数学的推論のための大きな言語モデルは、通常結果に基づく報酬で訓練される。
我々の実験では、このパラダイムがハッキングに報酬を与える可能性が高く、モデルの推論能力のかなりの過大評価につながります。
これは、偽陽性の頻度が高いことが証明されている。
- 参考スコア(独自算出の注目度): 40.905635870672945
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models for mathematical reasoning are typically trained with outcome-based rewards, which credit only the final answer. In our experiments, we observe that this paradigm is highly susceptible to reward hacking, leading to a substantial overestimation of a model's reasoning ability. This is evidenced by a high incidence of false positives - solutions that reach the correct final answer through an unsound reasoning process. Through a systematic analysis with human verification, we establish a taxonomy of these failure modes, identifying patterns like Miracle Steps - abrupt jumps to a correct output without a valid preceding derivation. Probing experiments suggest a strong association between these Miracle Steps and memorization, where the model appears to recall the answer directly rather than deriving it. To mitigate this systemic issue, we introduce the Rubric Reward Model (RRM), a process-oriented reward function that evaluates the entire reasoning trajectory against problem-specific rubrics. The generative RRM provides fine-grained, calibrated rewards (0-1) that explicitly penalize logical flaws and encourage rigorous deduction. When integrated into a reinforcement learning pipeline, RRM-based training consistently outperforms outcome-only supervision across four math benchmarks. Notably, it boosts Verified Pass@1024 on AIME2024 from 26.7% to 62.6% and reduces the incidence of Miracle Steps by 71%. Our work demonstrates that rewarding the solution process is crucial for building models that are not only more accurate but also more reliable.
- Abstract(参考訳): 数学的推論のための大きな言語モデルは、通常結果に基づく報酬で訓練される。
我々の実験では、このパラダイムがハッキングに報酬を与える可能性が高く、モデルの推論能力のかなりの過大評価につながります。
これは、偽陽性の頻度が高いことが証明されている。
人間の検証による体系的な分析を通じて、私たちはこれらの障害モードの分類を確立し、ミラクルステップのようなパターンを特定します。
探索実験は、これらの奇跡のステップと暗記の間に強い関連があることを示唆している。
この問題を緩和するために,プロセス指向の報酬関数であるRubric Reward Model(RRM)を導入する。
生成ROMは、論理的欠陥を明確に罰し、厳格な推論を促進する細粒度で校正された報酬(0-1)を提供する。
強化学習パイプラインに統合されると、RTMベースのトレーニングは、4つのベンチマークで結果のみの監視を継続的に上回る。
特に、AIME2024のVerified Pass@1024は26.7%から62.6%に増加し、ミラクルステップの発生率を71%削減している。
私たちの研究は、ソリューションプロセスの報奨が、より正確であるだけでなく、より信頼性の高いモデルを構築する上で重要であることを実証しています。
関連論文リスト
- Linking Process to Outcome: Conditional Reward Modeling for LLM Reasoning [30.302863491794543]
Process Reward Models (PRM) は、最終回答に向けてステップバイステップの推論を導くことを目的としている。
既存のPRMは、ステップ間の依存関係をキャプチャしたり、プロセスの報酬を最終的な結果と整合させるのに失敗します。
本稿では,時間的プロセスとして推論をフレーム化して正解を導く条件付きリワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-09-30T17:38:45Z) - Promoting Efficient Reasoning with Verifiable Stepwise Reward [7.385337642642193]
大規模推論モデル(LRM)は近年、強化学習によって支援された複雑な推論タスクにおいて大きな進歩を遂げている。
LRMは、単純な問題に対する過度な計算を過度に行い、効率を低下させることにしばしば悩まされる。
本稿では,中間状態の推論軌道における性能に基づいて報酬を割り当てる,ルールベースで検証可能なステップワイド報酬機構(VSRM)を提案する。
論文 参考訳(メタデータ) (2025-08-14T02:43:53Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Entropy-Regularized Process Reward Model [43.09203393852343]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。