論文の概要: MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model
- arxiv url: http://arxiv.org/abs/2510.11653v1
- Date: Mon, 13 Oct 2025 17:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.481126
- Title: MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model
- Title(参考訳): MATH-Beyond: RLがベースモデルを超えて拡張するためのベンチマーク
- Authors: Prasanna Mayilvahanan, Ricardo Dominguez-Olmedo, Thaddäus Wiedemer, Wieland Brendel,
- Abstract要約: そこで,MATH-Beyond (MATH-B) は,大規模なサンプリング予算の下で,最大8Bパラメータのオープンソースモデルを破るために構築されたベンチマークである。
これらの問題はDAPO-Math-17KデータセットとDeepScaleRデータセットのサブセットから引き出されるため、それらは標準の高校数学と同程度である。
我々はMATH-Bがより深い推論能力をもたらす探査駆動のRLアプローチを触媒することを期待している。
- 参考スコア(独自算出の注目度): 30.62638603067356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of DeepSeek-R1, a new wave of reinforcement learning (RL) methods has emerged that seem to unlock stronger mathematical reasoning. However, a closer look at the open-source ecosystem reveals a critical limitation: with sufficiently many draws (e.g., $\texttt{pass@1024}$), many existing base models already solve nearly all questions on widely used math benchmarks such as MATH-500 and AIME 2024. This suggests that the RL fine-tuning methods prevalent in the LLM reasoning literature largely sharpen existing solution modes rather than discovering entirely new ones. Such sharpening stands in contrast to the broader promise of RL: to foster exploration and to acquire new skills. To move beyond this plateau, we introduce MATH-Beyond (MATH-B), a benchmark deliberately constructed to defeat common open-source models of up to 8B parameters even under large sampling budgets. Improving performance on our benchmark via RL requires methods that learn to reason in ways that go beyond base model capabilities in repeated sampling. Since the problems are drawn from subsets of DAPO-Math-17K and DeepScaleR datasets, they remain topically equivalent to standard high-school math. Validating our premise, RL fine-tuned models such as Nemotron-Research-Reasoning-Qwen-1.5B and DeepScaleR-1.5B-Preview perform poorly on MATH-B at $\texttt{pass@1024}$, showing how existing approaches fall short on tackling harder instances. We hope MATH-B will catalyze exploration-driven RL approaches that elicit deeper reasoning capabilities. We release MATH-B at https://huggingface.co/datasets/brendel-group/MATH-Beyond.
- Abstract(参考訳): DeepSeek-R1の出現により、より強力な数学的推論を解き放つ新しい強化学習法(RL)が出現した。
十分に多くのドロー(例: $\texttt{pass@1024}$)があり、既存のベースモデルの多くは、MATH-500やAIME 2024のような広く使われている数学ベンチマークで、ほとんどすべての問題をすでに解決しています。
このことは、LLM法で広く用いられているRLファインチューニング法が、全く新しい方法を発見するのではなく、既存の解法モードを大幅に鋭くしていることを示唆している。
このような強化はRLの幅広い約束とは対照的に、探索を奨励し、新しいスキルを身につけることである。
この高原を越えるために,大規模なサンプリング予算の下でも,最大8Bパラメータのオープンソースモデルに意図的に打ち勝つために構築されたベンチマークであるMATH-Beyond(MATH-B)を導入する。
RLによるベンチマークのパフォーマンス向上には,反復的なサンプリングにおいて,ベースモデル機能を越える方法を学ぶための方法が必要です。
これらの問題はDAPO-Math-17KデータセットとDeepScaleRデータセットのサブセットから引き出されるため、それらは標準の高校数学と同程度である。
我々の前提を検証するため、Nemotron-Research-Reasoning-Qwen-1.5BやDeepScaleR-1.5B-PreviewのようなRL微調整モデルでは、$\texttt{pass@1024}$のMATH-Bでは、既存のアプローチがより難しいインスタンスに取り組む上で不足していることを示す。
我々はMATH-Bがより深い推論能力をもたらす探査駆動のRLアプローチを触媒することを期待している。
私たちはMATH-Bをhttps://huggingface.co/datasets/brendel-group/MATH-Beyondでリリースします。
関連論文リスト
- QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation [27.56280364505776]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)を推論タスクで訓練するための中心的なパラダイムとして登場した。
近年の研究では、RLがベースモデルを超えて推論能力にインセンティブを与える能力に疑問が呈されている。
本稿では,課題解決の難しさを抑えるため,学習中に部分解を導入するという,質問増補によるシンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-07-17T16:21:47Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットである
これには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。
DeepMath-103Kは一般化可能な推論の進展を促進する。
論文 参考訳(メタデータ) (2025-04-15T17:59:51Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。