論文の概要: MathClean: A Benchmark for Synthetic Mathematical Data Cleaning
- arxiv url: http://arxiv.org/abs/2502.19058v1
- Date: Wed, 26 Feb 2025 11:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:55.856014
- Title: MathClean: A Benchmark for Synthetic Mathematical Data Cleaning
- Title(参考訳): MathClean: 合成数式データのクリーニングのためのベンチマーク
- Authors: Hao Liang, Meiyi Qiang, Yuying Li, Zefeng He, Yongzhen Guo, Zhengzhou Zhu, Wentao Zhang, Bin Cui,
- Abstract要約: 数学の質問と答えは不正確さを導入し、トレーニングデータとWebデータの両方を劣化させる可能性がある。
本稿では,数学データクリーニングモデルの有効性を評価するために,MathCleanベンチマークを提案する。
我々の結果は、GPT-o1やDeepSeek-R1のような強力なモデルでさえ、このベンチマークでは性能が良くないことを示している。
- 参考スコア(独自算出の注目度): 33.34499387060138
- License:
- Abstract: With the rapid development of large language models (LLMs), the quality of training data has become crucial. Among the various types of training data, mathematical data plays a key role in enabling LLMs to acquire strong reasoning abilities. While high-quality open-source data is important, it is often insufficient for pre-training, necessitating the addition of synthetic math problems. However, synthetic math questions and answers can introduce inaccuracies, which may degrade both the training data and web data. Therefore, an effective method for cleaning synthetic math data is essential. In this paper, we propose the MathClean benchmark to evaluate the effectiveness of math data cleaning models. The MathClean benchmark consists of 2,000 correct questions and 2,000 erroneous questions with additional 2,000 correct and erroneous answers sourced from augmented data based on GSM8K and MATH. Moreover, we also annotate error types for each question or answer, since it can assess whether models can correctly identify the error categories for future improvements. Finally, we present comprehensive evaluations using state-of-the-art (SOTA) models. Our results demonstrate that even strong models like GPT-o1 and DeepSeek-R1 perform poorly on this benchmark, highlighting the utility of MathClean. Our code and data is available at https://github.com/YuYingLi0/MathClean.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展に伴い、トレーニングデータの質が重要になっている。
様々な種類の訓練データの中で、数学的データはLLMが強力な推論能力を得ることを可能にする上で重要な役割を担っている。
高品質なオープンソースデータは重要であるが、しばしば事前学習には不十分であり、合成数学の問題を補足する必要がある。
しかし、合成数学の質問や答えは不正確であり、トレーニングデータとWebデータの両方を劣化させる可能性がある。
したがって、合成数学データの洗浄に有効な方法が不可欠である。
本稿では,数学データクリーニングモデルの有効性を評価するために,MathCleanベンチマークを提案する。
MathCleanベンチマークは2000の正しい質問と2000の誤った質問で構成され、さらに2000の正しい回答がGSM8KとMATHに基づく拡張データから得られた。
さらに、モデルが将来の改善のためにエラーカテゴリを正しく識別できるかどうかを評価することができるので、各質問や回答のエラータイプに注釈を付けることもできる。
最後に,最新技術(SOTA)モデルを用いた総合評価について述べる。
我々の結果は、GPT-o1やDeepSeek-R1のような強力なモデルでさえ、このベンチマークでは性能が悪く、MathCleanの有用性を強調していることを示している。
私たちのコードとデータはhttps://github.com/YuYingLi0/MathClean.comで公開されています。
関連論文リスト
- MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling [46.51639868437127]
AceMathは、複雑な数学問題の解法に優れたフロンティア数学モデルのスイートである。
我々は報酬モデルとしてAceMath-72B-InstructとAceMath-72B-RMを開発した。
AceMath-72B-RMとAceMath-72B-RMを組み合わせると、数学推論ベンチマークの平均rm@8スコアが得られる。
論文 参考訳(メタデータ) (2024-12-19T17:29:44Z) - MIND: Math Informed syNthetic Dialogues for Pretraining LLMs [34.498175178707065]
本稿では,新しい大規模かつ多様なMath Informed syNthetic Dialogue(MIND)生成法を提案する。
MIND は OpenWebMath (OWM) に基づいて合成会話を生成し,新しい数学コーパス MIND-OWM を生成する。
会話設定の異なる実験により,対話参加者間の知識ギャップを組み込むことが,高品質な数学データの生成に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-10-15T18:25:53Z) - OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。
ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文 参考訳(メタデータ) (2024-02-27T05:50:35Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。
本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。
2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文 参考訳(メタデータ) (2020-10-04T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。