論文の概要: AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
- arxiv url: http://arxiv.org/abs/2504.16891v1
- Date: Wed, 23 Apr 2025 17:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:01:46.678002
- Title: AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
- Title(参考訳): AIMO-2ウィンニングソリューション:OpenMathReasoningデータセットによる最先端の数学的推論モデルの構築
- Authors: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman,
- Abstract要約: 本稿では,AI Mathematical Olympiad-Progress Prize 2 (AIMO-2) コンペティションの受賞について述べる。
最先端の数学的推論モデルを構築するための私たちのレシピは、3つの重要な柱に依存しています。
- 参考スコア(独自算出の注目度): 8.13404599390294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our winning submission to the AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art mathematical reasoning models relies on three key pillars. First, we create a large-scale dataset comprising 540K unique high-quality math problems, including olympiad-level problems, and their 3.2M long-reasoning solutions. Second, we develop a novel method to integrate code execution with long reasoning models through iterative training, generation, and quality filtering, resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we create a pipeline to train models to select the most promising solution from many candidates. We show that such generative solution selection (GenSelect) can significantly improve upon majority voting baseline. Combining these ideas, we train a series of models that achieve state-of-the-art results on mathematical reasoning benchmarks. To facilitate further research, we release our code, models, and the complete OpenMathReasoning dataset under a commercially permissive license.
- Abstract(参考訳): 本稿では,AI Mathematical Olympiad-Progress Prize 2 (AIMO-2) コンペティションの受賞について述べる。
最先端の数学的推論モデルを構築するための私たちのレシピは、3つの重要な柱に依存しています。
まず,オリンピアドレベルの問題を含む540Kの固有な高次数学問題と,その3.2M長共振解からなる大規模データセットを作成する。
第2に、反復的なトレーニング、生成、品質フィルタリングにより、コード実行と長い推論モデルを統合する新しい手法を開発し、その結果、1.7Mの高品質なツール統合推論ソリューションが実現した。
第3に、多くの候補から最も有望なソリューションを選択するために、モデルをトレーニングするパイプラインを作成します。
このような生成的解選択(GenSelect)は、多数決ベースラインにおいて著しく改善可能であることを示す。
これらのアイデアを組み合わせることで、数学的推論ベンチマークで最先端の結果を得る一連のモデルを訓練する。
さらなる研究を容易にするため、商用ライセンスの下で、コード、モデル、完全なOpenMathReasoningデータセットをリリースします。
関連論文リスト
- MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models [11.964085209696051]
UGMathBenchは16の被験者5,062の課題と111のトピックで構成され、10の異なる回答タイプが特徴である。
それぞれの問題には3つのランダム化バージョンが含まれており、主要なオープンソース LLM が UGMathBench で飽和するにつれて、リリースに向けて追加バージョンが計画されている。
LLMを23個評価した結果, OpenAI-o1-mini による EAcc のロバスト性は 56.3% であり,それぞれ異なるモデルで大きな$Delta$値が観測された。
論文 参考訳(メタデータ) (2025-01-23T15:46:43Z) - RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。
我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。
本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:06:41Z) - ControlMath: Controllable Data Generation Promotes Math Generalist Models [38.0858432336873]
方程式生成モジュールと2つの LLM ベースのエージェントを含む反復的手法である ControlMath を提案する。
モジュールは多種多様な方程式を生成し、それを問題職人のエージェントが算術語問題に変換する。
ControlMathQAは190kの数学語問題を含む。
論文 参考訳(メタデータ) (2024-09-20T03:58:26Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:56:40Z) - Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文 参考訳(メタデータ) (2023-10-16T04:11:19Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - ML4CO: Is GCNN All You Need? Graph Convolutional Neural Networks Produce
Strong Baselines For Combinatorial Optimization Problems, If Tuned and
Trained Properly, on Appropriate Data [8.09193285529236]
本稿では,2021年のNeurIPS Machine Learning for Combinatorial Optimization (ML4CO)コンペでHuawei EI-OROASチームが学んだソリューションと教訓を要約する。
チームの応募は最終ランキングで2位となり、第1位に近かった。
簡単なグラフ畳み込みニューラルネットワーク(GCNN)は、トレーニングやチューニングを適切に行うと、最先端の結果が得られると論じる。
論文 参考訳(メタデータ) (2021-12-22T22:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。