論文の概要: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2403.02333v2
- Date: Wed, 17 Apr 2024 17:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:41:31.834439
- Title: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning
- Title(参考訳): 数理推論に基づくキーポイント駆動データ合成
- Authors: Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen,
- Abstract要約: キーポイント駆動型データ合成(KPDDS)を提案する。
KPDDSは厳格な品質管理を伴う新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
- 参考スコア(独自算出の注目度): 110.80663974060624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great potential in complex reasoning tasks, yet their performance is often hampered by the scarcity of high-quality and reasoning-focused training datasets. Addressing this challenge, we propose Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that synthesizes question-answer pairs by leveraging key points and exemplar practices from authentic data sources. KPDDS ensures the generation of novel questions with rigorous quality control and substantial scalability. As a result, we present KPMath, an extensive synthetic dataset tailored for mathematical reasoning, comprising over 800K question-answer pairs. Utilizing KPMath and augmenting it with additional reasoning-intensive corpora, we create the comprehensive KPMath-Plus dataset. The fine-tuned DeepSeekMath model on KPMath-Plus achieves zero-shot PASS@1 accuracies of 83.9% on GSM8K and 48.8% on MATH, and also reaches promising performance on other math reasoning datasets, outperforming competitors in the 7B to 70B range.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質で推論にフォーカスしたトレーニングデータセットの不足によってしばしば妨げられている。
この課題に対処するため,キーポイント駆動型データ合成(KPDDS)を提案する。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
その結果、KPMathは、800万以上の質問応答対からなる数学的推論に適した、広範囲な合成データセットである。
KPMathを利用し、さらに推論集約的なコーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。
微調整されたKPMath-PlusのDeepSeekMathモデルは、GSM8Kでは83.9%、MATHでは48.8%というゼロショットのPASS@1アキュラシーを達成し、他の数学推論データセットでは有望なパフォーマンスを達成し、7Bから70Bの範囲ではライバルよりも優れていた。
関連論文リスト
- Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。
複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。
主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。
他の選択戦略との比較は、QaDSの優位性を検証する。
OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文 参考訳(メタデータ) (2024-04-01T12:01:06Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and
the Case of Information Extraction [28.51694365908817]
本研究は,大規模言語モデルでは直接解けないタスクに対しても,有用なデータを合成的に生成できることを示唆する。
我々は、1.8Mのデータポイントのデータセットを合成的に生成し、人間の評価において既存のデータセットと比較して優れた品質を確立する。
論文 参考訳(メタデータ) (2023-03-07T18:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。