論文の概要: ResearchMath-14K: Scaling Research-Level Mathematics via Agents
- arxiv url: http://arxiv.org/abs/2605.28003v1
- Date: Wed, 27 May 2026 05:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.784449
- Title: ResearchMath-14K: Scaling Research-Level Mathematics via Agents
- Title(参考訳): ResearchMath-14K: エージェントによる研究レベル数学のスケーリング
- Authors: Guijin Son, Seungyeop Yi, Minju Gwak, Hyunwoo Ko, Wongi Jang, Youngjae Yu,
- Abstract要約: 我々は,マルチエージェントパイプラインを通じて学術資料から計算した一連の問題であるResearchMath-14kを紹介する。
我々は,非試行や製造基準など,繰り返し発生する回避行動を観察した。
我々はResearchMath-14kを今後の研究レベルの数学的推論のために公開する。
- 参考スコア(独自算出の注目度): 22.48828824950799
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The frontier of mathematics is defined by problems whose solutions are not yet known, yet it remains unclear whether language models can meaningfully engage with such problems without human intervention. A major obstacle is the lack of large-scale research-level math datasets. To this end, we introduce ResearchMath-14k, a set of $14{,}056$ problems curated from academic sources via a multi-agent pipeline, making it the largest collection of research-level mathematical problems to date. We further generate ResearchMath-Reasoning, $220$K teacher trajectories from two open models, where we observe recurring avoidance behaviors such as non-attempts and fabricated references. Interestingly, across eight open-weight models, newer generations produce $5.6\times$ more references and $5.0\times$ more fake references per trace. After agentic filtering of ResearchMath-Reasoning, fine-tuning Qwen3 models from 4B to 30B parameters improves over base models by $9.2$ points on average. This shows that filtered open-problem attempts can provide useful supervision even without fully correct reasoning traces. We make ResearchMath-14k publicly available for future works on research-level mathematical reasoning.
- Abstract(参考訳): 数学のフロンティアは、解がまだ分かっていない問題によって定義されるが、言語モデルが人間の介入なしにそのような問題に有意義に関わりうるかどうかは不明である。
大きな障害は、大規模な研究レベルの数学データセットの欠如である。
この目的のために、我々はResearchMath-14kを紹介した。これは学術資料から収集した14,056ドルの問題の集合であり、これまでで最大の研究レベルの数学的問題の集合である。
我々はさらに、2つのオープンモデルから220ドルの教師軌道であるResearchMath-Reasoningを生成する。
興味深いことに、8つのオープンウェイトモデルにおいて、新しい世代は5.6\times$より多くの参照と5.0\times$トレース当たりの偽の参照を生成する。
ResearchMath-Reasoningのエージェントフィルタリングの後、4Bから30Bパラメータの微調整Qwen3モデルは平均9.2ドルポイントでベースモデルよりも改善されている。
このことは、フィルタされたオープンプロブレム試行が、完全に正しい推論トレースを伴わずに有用な監視を提供することを示している。
我々はResearchMath-14kを今後の研究レベルの数学的推論のために公開する。
関連論文リスト
- Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs [86.49905745865038]
Soohakは64人の数学者によって新たに書かれた439プロブレムのベンチマークである。
データセットは2026年後半に公開され、中間で要求に応じてモデル評価が利用可能になる。
論文 参考訳(メタデータ) (2026-05-09T17:14:22Z) - HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification [54.06301039725887]
計算および応用数学において8つの領域にまたがる100以上の未解決問題のベンチマークであるHorizonMathを紹介する。
我々のベンチマークは、発見が困難であり、意味のある数学的洞察を必要とする問題のクラスをターゲットにしているが、検証は計算的に効率的で簡単なものである。
論文 参考訳(メタデータ) (2026-03-16T17:59:53Z) - HARP: A challenging human-annotated math reasoning benchmark [7.691786865279827]
本稿では,米国数学コンペティション(A(J)HSME,AMC,AIME,USA(J)MO)の5,409個の問題からなるHARP(Human Annotated Reasoning Problems)を紹介する。
そのうち4,780の回答は自動的にチェックできる(SymPyなどのライブラリで)。
これらの問題には6つの難易度があり、フロンティアモデルは197の最も難しいブラケット(平均41.1%のo1-mini、9.6%のGemini 1.5 Pro)で比較的性能が劣っている。
私たちのデータセットには、複数の選択肢(4,110問題)と、平均2つの人書き文字も備えています。
論文 参考訳(メタデータ) (2024-12-11T23:31:06Z) - Modeling Complex Mathematical Reasoning via Large Language Model based
MathAgent [15.81048994298046]
大規模言語モデル (LLM) は複雑な数学的問題を解く上で困難に直面している。
本稿では, エージェントベースのゼロショットフレームワークを用いて, LLMの数学的解法を公式に記述し, 拡張する。
miniF2FとMATHの実験では、PreRとMathAgentsの有効性が実証されている。
論文 参考訳(メタデータ) (2023-12-14T13:33:50Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - MAmmoTH: Building Math Generalist Models through Hybrid Instruction
Tuning [60.208045804204076]
我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。
MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。
論文 参考訳(メタデータ) (2023-09-11T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。