論文の概要: MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task
- arxiv url: http://arxiv.org/abs/2502.11684v1
- Date: Mon, 17 Feb 2025 11:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:57.258262
- Title: MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task
- Title(参考訳): MathFimer:Fill-in-the-Middleタスクによる推論ステップの拡大による数学的推論の強化
- Authors: Yuchen Yan, Yongliang Shen, Yang Liu, Jin Jiang, Xin Xu, Mengdi Zhang, Jian Shao, Yueting Zhuang,
- Abstract要約: 数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
- 参考スコア(独自算出の注目度): 49.355810887265925
- License:
- Abstract: Mathematical reasoning represents a critical frontier in advancing large language models (LLMs). While step-by-step approaches have emerged as the dominant paradigm for mathematical problem-solving in LLMs, the quality of reasoning steps in training data fundamentally constrains the performance of the models. Recent studies has demonstrated that more detailed intermediate steps can enhance model performance, yet existing methods for step expansion either require more powerful external models or incur substantial computational costs. In this paper, we introduce MathFimer, a novel framework for mathematical reasoning step expansion inspired by the "Fill-in-the-middle" task from code completion. By decomposing solution chains into prefix-suffix pairs and training models to reconstruct missing intermediate steps, we develop a specialized model, MathFimer-7B, on our carefully curated NuminaMath-FIM dataset. We then apply these models to enhance existing mathematical reasoning datasets by inserting detailed intermediate steps into their solution chains, creating MathFimer-expanded versions. Through comprehensive experiments on multiple mathematical reasoning datasets, including MathInstruct, MetaMathQA and etc., we demonstrate that models trained on MathFimer-expanded data consistently outperform their counterparts trained on original data across various benchmarks such as GSM8K and MATH. Our approach offers a practical, scalable solution for enhancing mathematical reasoning capabilities in LLMs without relying on powerful external models or expensive inference procedures.
- Abstract(参考訳): 数学的推論は、大規模言語モデル(LLM)の発展における重要なフロンティアである。
ステップ・バイ・ステップのアプローチは、LLMにおける数学的問題解決の主流パラダイムとして現れてきたが、トレーニングデータにおける推論ステップの品質は、モデルの性能を根本的に制限している。
近年の研究では、より詳細な中間段階によりモデル性能が向上することが示されているが、既存の段階展開法では、より強力な外部モデルを必要とするか、相当な計算コストが要求される。
本稿では、コード補完から「中間者」タスクにインスパイアされた数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
溶液鎖を接頭接尾辞対に分解し、中間ステップの欠落を再現する訓練モデルを構築し、慎重にキュレートしたNuminaMath-FIMデータセット上でMathFimer-7Bという特殊なモデルを開発した。
次に、これらのモデルを適用し、ソリューションチェーンに詳細な中間ステップを挿入し、MathFimer拡張バージョンを作成することにより、既存の数学的推論データセットを強化する。
MathInstruct、MetaMathQAなど、複数の数学的推論データセットに関する包括的な実験を通じて、MathFimerで拡張されたデータでトレーニングされたモデルは、GSM8KやMATHといった様々なベンチマークでトレーニングされたオリジナルのデータでトレーニングされたモデルよりも一貫して優れていることを示した。
我々のアプローチは、強力な外部モデルや高価な推論手順に頼ることなく、LLMの数学的推論能力を向上させるための実用的でスケーラブルなソリューションを提供する。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Benchmarking Large Language Models for Math Reasoning Tasks [12.91916443702145]
我々は、4つの強力な基礎モデル上の5つの広く使われている数学的データセットの数学的問題解決のための、最先端の文脈内学習アルゴリズムを7つ比較した。
以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基盤モデルでは, 具体的なプロンプト戦略とは独立に数学的推論を解くことが可能であることが示唆された。
将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。
論文 参考訳(メタデータ) (2024-08-20T13:34:17Z) - InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning [13.728595670907136]
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
論文 参考訳(メタデータ) (2024-08-09T08:18:20Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。
しかし、これらの演算は通常計算的に要求される。
特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。
先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-02-12T17:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。