論文の概要: Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2505.22203v1
- Date: Wed, 28 May 2025 10:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.551302
- Title: Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning
- Title(参考訳): ルールとモデルに基づく検証の落とし穴-数学的推論のケーススタディ
- Authors: Yuzhen Huang, Weihao Zeng, Xingshan Zeng, Qi Zhu, Junxian He,
- Abstract要約: 数理推論をケーススタディとして、静的評価とRLトレーニングのシナリオの両方において、様々な検証を包括的に分析する。
まず、現在のオープンソースのルールベースの検証器は、よく使われる数学的データセット間で異なる形式で表される同等の答えを認識できないことが多く、無視できない偽陰性率をもたらす。
これらの制約に対処するための潜在的な解決策としてモデルベース検証について検討する。
静的評価では,モデルの検証精度が著しく向上していることが示されているが,さらに解析とRLトレーニングの結果から,特定のパターンを誤分類するハッキングに非常に敏感であることが示唆された。
- 参考スコア(独自算出の注目度): 26.717777746219635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trustworthy verifiers are essential for the success of reinforcement learning with verifiable reward (RLVR), which is the core methodology behind various large reasoning models such as DeepSeek-R1. In complex domains like mathematical reasoning, rule-based verifiers have been widely adopted in previous works to train strong reasoning models. However, the reliability of these verifiers and their impact on the RL training process remain poorly understood. In this work, we take mathematical reasoning as a case study and conduct a comprehensive analysis of various verifiers in both static evaluation and RL training scenarios. First, we find that current open-source rule-based verifiers often fail to recognize equivalent answers presented in different formats across multiple commonly used mathematical datasets, resulting in non-negligible false negative rates. This limitation adversely affects RL training performance and becomes more pronounced as the policy model gets stronger. Subsequently, we investigate model-based verifiers as a potential solution to address these limitations. While the static evaluation shows that model-based verifiers achieve significantly higher verification accuracy, further analysis and RL training results imply that they are highly susceptible to hacking, where they misclassify certain patterns in responses as correct (i.e., false positives). This vulnerability is exploited during policy model optimization, leading to artificially inflated rewards. Our findings underscore the unique risks inherent to both rule-based and model-based verifiers, aiming to offer valuable insights to develop more robust reward systems in reinforcement learning.
- Abstract(参考訳): 信頼に値する検証は、DeepSeek-R1のような様々な大きな推論モデルの背後にあるコア方法論である検証可能な報酬(RLVR)による強化学習の成功に不可欠である。
数学的推論のような複雑な領域において、ルールベースの検証は、強い推論モデルを訓練するために、以前の研究で広く採用されてきた。
しかし、これらの検証器の信頼性とRLトレーニングプロセスへの影響はよく分かっていない。
本研究では,数理推論をケーススタディとして,静的評価とRL学習シナリオの両方において,様々な検証器の包括的解析を行う。
まず、現在のオープンソースのルールベースの検証器は、複数の一般的な数学的データセットにまたがって異なる形式で表される同等の答えを認識できないことが多く、無視できない偽陰性率をもたらす。
この制限は、RLトレーニングのパフォーマンスに悪影響を及ぼし、ポリシーモデルがより強くなるにつれて、より顕著になる。
次に,これらの制約に対処するための潜在的な解決策として,モデルベース検証について検討する。
静的評価では、モデルベースの検証器は検証精度が著しく高いことが示されているが、さらなる分析とRLトレーニングの結果は、それらがハッキングの影響を受けやすいことを示唆し、応答中の特定のパターンを正しく分類する(つまり、偽陽性)。
この脆弱性はポリシーモデルの最適化中に悪用され、人工的に膨らませられた報酬につながる。
本研究は,強化学習において,より堅牢な報酬システムを開発する上で,ルールベースの検証とモデルベースの検証の両方に固有のリスクを明らかにした。
関連論文リスト
- Reinforcing General Reasoning without Verifiers [47.72684162518086]
本稿では,応答検証を回避し,RLを用いて参照応答を生成する確率を直接最大化する検証自由手法(VeriFree)を提案する。
VeriFreeは、MMLU-Pro、GPQA、SuperGPQA、数学関連のベンチマークにまたがる広範囲な評価において、検証者ベースの手法に匹敵する。
論文 参考訳(メタデータ) (2025-05-27T17:56:27Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。