論文の概要: Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision
- arxiv url: http://arxiv.org/abs/2512.15489v1
- Date: Wed, 17 Dec 2025 14:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.028124
- Title: Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision
- Title(参考訳): ネモトロン・マス:マルチモードスーパービジョンによる数学的推論の効率的長期蒸留
- Authors: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman,
- Abstract要約: ネモトロン・マス(Nemotron-Math)は、7.5Mの解トレースを含む大規模な数学的推論データセットである。
このデータセットは、AoPSのキュレートされた85K問題と、262KコミュニティソースのStackExchange-Math問題を統合する。
Nemotron-Mathは、マッチしたAoPS問題において、オリジナルのOpenMathingよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 15.319195064020393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR). The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality. Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks. To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3$\times$ without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.
- Abstract(参考訳): 高品質な数学的推論の監督には、多様な推論スタイル、長い形跡、効果的なツール統合、既存のデータセットが限定的な形でのみ提供する機能が必要である。
我々は,gpt-oss-120bのマルチモード生成機能を活用し,Pythonツール統合推論(TIR)を用いて,ハイ,ミディアム,低推論モードにわたる7.5Mの解トレースを含む大規模数学的推論データセットであるNemotron-Mathを紹介した。
このデータセットは、AoPSの85Kキュレートされた問題と、262KコミュニティソースのStackExchange-Math問題を統合し、構造化競合タスクと多様な実世界の数学的クエリを組み合わせる。
我々は、データセットの品質を評価するために、制御された評価を行う。
Nemotron-Mathは、マッチしたAoPS問題において、オリジナルのOpenMathReasoningよりも一貫して優れている。
StackExchange-Mathを組み込むことで、特にHLE-Math上での堅牢性と一般化が大幅に向上し、数学の競合ベンチマークで精度が保たれる。
本研究では,文脈長128Kの微調整を2--3$\times$で高速化し,高精度な長期学習を支援する。
全体として、Nemotron-Mathは最先端のパフォーマンスを実現しており、AIME 2024 では 100\% maj@16 、Python TIRでは 2025 である。
関連論文リスト
- DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットである
これには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。
DeepMath-103Kは一般化可能な推論の進展を促進する。
論文 参考訳(メタデータ) (2025-04-15T17:59:51Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning [24.68321102981711]
本稿では,数理推論にコードアシストと自己補正を併用した思考の分解を利用した大規模言語モデル(LLM)について紹介する。
DotaMathモデルは複雑な数学的タスクに対処し、それらをより単純な論理的なサブタスクに分解し、コードを利用してこれらのサブタスクを解決する。
そこで我々は,DotaMathQAの模倣学習を用いて,オープンソースのLLMと比較して優れた性能を示すDotaMathモデルを訓練した。
論文 参考訳(メタデータ) (2024-07-04T17:39:16Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。