論文の概要: PersonaMath: Boosting Mathematical Reasoning via Persona-Driven Data Augmentation
- arxiv url: http://arxiv.org/abs/2410.01504v2
- Date: Fri, 21 Feb 2025 06:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:24.966205
- Title: PersonaMath: Boosting Mathematical Reasoning via Persona-Driven Data Augmentation
- Title(参考訳): PersonaMath:ペルソナ駆動データ拡張による数学的推論の促進
- Authors: Jing Luo, Longze Chen, Run Luo, Liang Zhu, Chang Ao, Jiaming Li, Yukun Chen, Xin Cheng, Wen Yang, Jiayuan Su, Ahmadreza Argha, Hamid Alinejad-Rokny, Chengming Li, Shiwen Ni, Min Yang,
- Abstract要約: 我々は、PersonaMathモデルをトレーニングする、MATHとGSM8Kから派生したデータセットであるPersonaMathQAを紹介する。
私たちのデータセットには、MetaMathQAの32.6%とMathInstructの49.5%の128.9Kのデータポイントしか含まれていません。
我々は、PersonaMathQAデータセット、PersonaMathモデル、およびパブリック利用のためのコードをオープンソース化した。
- 参考スコア(独自算出の注目度): 26.827532201425637
- License:
- Abstract: While closed-source Large Language Models (LLMs) demonstrate strong mathematical problem-solving abilities, open-source models still face challenges with such tasks. To bridge this gap, we propose a data augmentation approach and introduce PersonaMathQA, a dataset derived from MATH and GSM8K, on which we train the PersonaMath models. Our approach consists of two stages: the first stage focuses on learning from Persona Diversification, and the second stage emphasizes learning from Reflection. In the first stage, we regenerate detailed chain-of-thought (CoT) solutions as instructions using a closed-source LLM and introduce a persona-driven data augmentation technique. This technique innovatively classifies personas based on occupations, significantly enhancing the dataset's diversity and quality. In the second stage, we incorporate reflection to fully leverage more challenging and valuable questions. Evaluation of our PersonaMath models on MATH and GSM8K reveals that the PersonaMath-7B model (based on Qwen2.5-7B) achieves an accuracy of 61.2% on MATH and 87.8% on GSM8K, surpassing all baseline methods and achieving state-of-the-art performance. Notably, our dataset contains only 128.9K data points-merely 32.6% of MetaMathQA and 49.5% of MathInstruct-yet our model outperforms these baselines, demonstrating the high quality and diversity of our dataset, which enables more efficient model training. We open-source the PersonaMathQA dataset, PersonaMath models, and our code for public usage.
- Abstract(参考訳): クローズドソースのLarge Language Models (LLM) は強力な数学的問題解決能力を示しているが、オープンソースモデルはそのような課題に直面している。
このギャップを埋めるために,PersonaMathQAを提案する。PersonaMathQAはMATHとGSM8Kから派生したデータセットで,PersonaMathモデルをトレーニングする。
第1段階はペルソナの多様化から学ぶことに焦点を当て,第2段階はリフレクションから学ぶことを強調する。
最初の段階では、クローズドソース LLM を用いた命令として詳細なチェーン・オブ・シント(CoT)ソリューションを再生し、ペルソナ駆動型データ拡張技術を導入する。
この技術は、職業に基づくペルソナを革新的に分類し、データセットの多様性と品質を大幅に向上させる。
第2段階では、リフレクションを取り入れて、より困難で価値のある質問をフル活用します。
MATHおよびGSM8K上でのPersonaMathモデルの評価により、PersonaMath-7Bモデル(Qwen2.5-7Bに基づく)は、MATHで61.2%、GSM8Kで87.8%の精度を達成し、すべてのベースライン手法を超越し、最先端性能を実現していることが明らかとなった。
特に、我々のデータセットはたった128.9Kのデータポイント(MetaMathQAの32.6%、MathInstructの49.5%)しか含まれていない。
我々は、PersonaMathQAデータセット、PersonaMathモデル、およびパブリック利用のためのコードをオープンソース化した。
関連論文リスト
- MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning [11.426127461122908]
この研究には、マルチパースペクティブなデータ拡張手法による新しい数学の質問が含まれ、その上でコードネストされたソリューションを合成する。
外部Pythonインタプリタと統合したオープン大言語モデル(LLM)は、数学的推論能力を大幅に強化した。
ステージ1では、純粋なCoTデータに基づいてLlama-2を微調整し、中間モデルを取得し、ステージ2のコードネストデータに基づいてトレーニングし、結果のMuMath-Codeを得る。
論文 参考訳(メタデータ) (2024-05-13T08:32:19Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。