論文の概要: JT-Math: A Multi-Stage Framework for Advanced Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.19748v1
- Date: Sat, 26 Jul 2025 02:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.091911
- Title: JT-Math: A Multi-Stage Framework for Advanced Mathematical Reasoning in Large Language Models
- Title(参考訳): JT-Math:大規模言語モデルにおける高度な数学的推論のためのマルチステージフレームワーク
- Authors: Yifan Hao, Fangning Chao, Yaqian Hao, Zhaojun Cui, Huan Bai, Haiyu Zhang, Yankai Liu, Chao Deng, Junlan Feng,
- Abstract要約: 本稿では,ベース,インストラクション,思考バージョンで構成される一連のオープンソースモデルであるJT-Math-8Bを紹介する。
Instruct Model は Supervised Fine-Tuning (SFT) と GRPO-based reinforcement learning (RL) によって直接的かつ簡潔な回答に最適化されている。
思考モデルは、Long Chain-of-Thought (Long CoT)アプローチを用いて、SFTと新しい多段階RLカリキュラムを組み合わせた複雑な問題解決のために訓練されている。
- 参考スコア(独自算出の注目度): 15.054016881151254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mathematical reasoning is a cornerstone of artificial general intelligence and a primary benchmark for evaluating the capabilities of Large Language Models (LLMs). While state-of-the-art models show promise, they often falter when faced with complex problems that demand deep conceptual understanding and intricate, multi-step deliberation. To address this challenge, we introduce JT-Math-8B, a series of open-source models comprising base, instruct, and thinking versions, built upon a systematic, multi-stage optimization framework. Our pre-training corpus is a high-quality, 210B-token dataset curated through a dedicated data pipeline that uses model-based validation to ensure quality and diversity. The Instruct Model is optimized for direct, concise answers through Supervised Fine-Tuning (SFT) and a GRPO-based reinforcement learning (RL) method. The Thinking Model is trained for complex problem-solving using a Long Chain-of-Thought (Long CoT) approach, combining SFT with a novel, multi-stage RL curriculum that progressively increases task difficulty and context length up to 32K tokens. JT-Math-8B achieves state-of-the-art results among open-source models of similar size, surpassing prominent models like OpenAI's O1-mini and GPT-4o , and demonstrating superior performance on competition-level mathematics.
- Abstract(参考訳): 数学的推論は、人工知能の基盤であり、Large Language Models (LLMs) の能力を評価するための主要なベンチマークである。
最先端のモデルは将来性を示すが、深い概念的理解と複雑な多段階の熟考を必要とする複雑な問題に直面した時にしばしば失敗する。
この課題に対処するために,JT-Math-8Bを導入する。ベース,インストラクション,思考バージョンで構成される一連のオープンソースモデルで,体系的な多段階最適化フレームワーク上に構築されている。
私たちの事前トレーニングコーパスは、モデルベースの検証を使用して品質と多様性を保証する専用のデータパイプラインを通じてキュレートされた、高品質で210Bのデータセットです。
Instruct Model は Supervised Fine-Tuning (SFT) と GRPO-based reinforcement learning (RL) によって直接的かつ簡潔な回答に最適化されている。
思考モデルは、Long Chain-of-Thought (Long CoT)アプローチを用いて複雑な問題解決のために訓練され、SFTと、タスクの難易度とコンテキスト長を32Kトークンまで徐々に増加させる新しい多段階RLカリキュラムを組み合わせる。
JT-Math-8B は、OpenAI の O1-mini や GPT-4o のような著名なモデルに勝り、競合レベルの数学において優れた性能を示す。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。
2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics [23.80647785460245]
Process Reward Models (PRM) は、大規模言語モデルの数学的推論能力を高めることを約束している。
マルチモーダル数学的推論におけるPRMの可能性を解き明かすための第一歩を踏み出す。
URSAは3段階のUnfolding Multimodal Process-Supervision Aided Trainingフレームワークである。
論文 参考訳(メタデータ) (2025-01-08T18:49:41Z) - RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。
我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。
本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:06:41Z) - LATTE: Learning to Think with Vision Specialists [103.5952731807559]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Mixture-of-Instructions: Aligning Large Language Models via Mixture Prompting [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは命令パッキングと多様なシステムプロンプトを組み合わせて言語モデルのアライメント効率を高める戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。