論文の概要: InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2408.07089v1
- Date: Fri, 9 Aug 2024 08:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 15:18:29.462061
- Title: InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning
- Title(参考訳): InfinityMATH: プログラム数学的推論におけるスケーラブルなインストラクションチューニングデータセット
- Authors: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu,
- Abstract要約: InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
- 参考スコア(独自算出の注目度): 13.728595670907136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.
- Abstract(参考訳): CoT(Chain-of-Thoughts)法とPoT(Program-of-Thoughts)法の最近の進歩は、言語モデルの数学的推論能力を大幅に向上させ、LLMを用いた命令チューニングデータセットへの統合を容易にした。
しかし、大規模なデータセット作成のための既存の手法では、大量のシードデータと高い計算コストがデータ合成に必要であり、スケーラビリティにとって大きな課題となっている。
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
構成パイプラインは、数値を数学的問題から切り離して、数に依存しないプログラムを合成し、特定の数値への依存を最小限に抑えながら、効率的で柔軟なスケーリングを可能にする。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
これらの微調整されたモデルは、ドメイン内ベンチマークとドメイン外ベンチマークの両方で、平均184.7%から514.3%に大幅に改善された。
さらに、これらのモデルはGSM8K+とMATH+のベンチマークで高いロバスト性を示し、これは単に数字のバリエーションで拡張されたテストセットである。
InfinityMATHは、モデルが幅広い数学的問題に対してより汎用的で効果的であることを保証する。
データはhttps://huggingface.co/datasets/flagopen/InfinityMATHで公開されている。
関連論文リスト
- OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。
我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。
第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文 参考訳(メタデータ) (2024-07-11T17:59:47Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit [4.957099360745168]
大規模言語モデル (LLM) は数学的問題の解法を含む様々な推論タスクにおいて研究されている。
我々は,ピソン型計算機代数システム(CAS)をその数値精度に活用するだけでなく,オプションのLCMも組み込んだ総合的な数学的評価ツールキットを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:03:44Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。