Fugu-MT 論文翻訳(概要): PersonaMath: Boosting Mathematical Reasoning via Persona-Driven Data Augmentation

論文の概要: PersonaMath: Boosting Mathematical Reasoning via Persona-Driven Data Augmentation

arxiv url: http://arxiv.org/abs/2410.01504v2
Date: Fri, 21 Feb 2025 06:33:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:38.868708
Title: PersonaMath: Boosting Mathematical Reasoning via Persona-Driven Data Augmentation
Title（参考訳）: PersonaMath:ペルソナ駆動データ拡張による数学的推論の促進
Authors: Jing Luo, Longze Chen, Run Luo, Liang Zhu, Chang Ao, Jiaming Li, Yukun Chen, Xin Cheng, Wen Yang, Jiayuan Su, Ahmadreza Argha, Hamid Alinejad-Rokny, Chengming Li, Shiwen Ni, Min Yang,
Abstract要約: 我々は、PersonaMathモデルをトレーニングする、MATHとGSM8Kから派生したデータセットであるPersonaMathQAを紹介する。私たちのデータセットには、MetaMathQAの32.6%とMathInstructの49.5%の128.9Kのデータポイントしか含まれていません。我々は、PersonaMathQAデータセット、PersonaMathモデル、およびパブリック利用のためのコードをオープンソース化した。
参考スコア（独自算出の注目度）: 26.827532201425637
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While closed-source Large Language Models (LLMs) demonstrate strong mathematical problem-solving abilities, open-source models still face challenges with such tasks. To bridge this gap, we propose a data augmentation approach and introduce PersonaMathQA, a dataset derived from MATH and GSM8K, on which we train the PersonaMath models. Our approach consists of two stages: the first stage focuses on learning from Persona Diversification, and the second stage emphasizes learning from Reflection. In the first stage, we regenerate detailed chain-of-thought (CoT) solutions as instructions using a closed-source LLM and introduce a persona-driven data augmentation technique. This technique innovatively classifies personas based on occupations, significantly enhancing the dataset's diversity and quality. In the second stage, we incorporate reflection to fully leverage more challenging and valuable questions. Evaluation of our PersonaMath models on MATH and GSM8K reveals that the PersonaMath-7B model (based on Qwen2.5-7B) achieves an accuracy of 61.2% on MATH and 87.8% on GSM8K, surpassing all baseline methods and achieving state-of-the-art performance. Notably, our dataset contains only 128.9K data points-merely 32.6% of MetaMathQA and 49.5% of MathInstruct-yet our model outperforms these baselines, demonstrating the high quality and diversity of our dataset, which enables more efficient model training. We open-source the PersonaMathQA dataset, PersonaMath models, and our code for public usage.
Abstract（参考訳）: クローズドソースのLarge Language Models (LLM) は強力な数学的問題解決能力を示しているが、オープンソースモデルはそのような課題に直面している。このギャップを埋めるために,PersonaMathQAを提案する。PersonaMathQAはMATHとGSM8Kから派生したデータセットで,PersonaMathモデルをトレーニングする。第1段階はペルソナの多様化から学ぶことに焦点を当て,第2段階はリフレクションから学ぶことを強調する。最初の段階では、クローズドソース LLM を用いた命令として詳細なチェーン・オブ・シント(CoT)ソリューションを再生し、ペルソナ駆動型データ拡張技術を導入する。この技術は、職業に基づくペルソナを革新的に分類し、データセットの多様性と品質を大幅に向上させる。第2段階では、リフレクションを取り入れて、より困難で価値のある質問をフル活用します。 MATHおよびGSM8K上でのPersonaMathモデルの評価により、PersonaMath-7Bモデル(Qwen2.5-7Bに基づく)は、MATHで61.2%、GSM8Kで87.8%の精度を達成し、すべてのベースライン手法を超越し、最先端性能を実現していることが明らかとなった。特に、我々のデータセットはたった128.9Kのデータポイント(MetaMathQAの32.6%、MathInstructの49.5%)しか含まれていない。我々は、PersonaMathQAデータセット、PersonaMathモデル、およびパブリック利用のためのコードをオープンソース化した。

関連論文リスト

SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers [10.558690357768336]
textbfSAND-Math (Synthetic Augmented Novel and Difficult Mathematics problem and Solution)を紹介する。まず、スクラッチから高品質な問題を発生させ、次に新しい textbfDifficulty Hiking ステップを通じて、その複雑性を体系的に高めます。平均問題の難易度を5.02から5.98に引き上げることで、AIME25のパフォーマンスを46.38%から49.23%に引き上げる。
論文参考訳（メタデータ） (2025-07-28T05:17:48Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問) texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文参考訳（メタデータ） (2024-10-02T14:00:09Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。 Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文参考訳（メタデータ） (2024-06-25T05:43:21Z)
MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning [11.426127461122908]
この研究には、マルチパースペクティブなデータ拡張手法による新しい数学の質問が含まれ、その上でコードネストされたソリューションを合成する。外部Pythonインタプリタと統合したオープン大言語モデル(LLM)は、数学的推論能力を大幅に強化した。ステージ1では、純粋なCoTデータに基づいてLlama-2を微調整し、中間モデルを取得し、ステージ2のコードネストデータに基づいてトレーニングし、結果のMuMath-Codeを得る。
論文参考訳（メタデータ） (2024-05-13T08:32:19Z)
Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文参考訳（メタデータ） (2024-03-07T18:00:40Z)
MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。 7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。 MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文参考訳（メタデータ） (2024-02-26T07:17:25Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文参考訳（メタデータ） (2023-09-21T17:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。