論文の概要: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical
Reasoning
- arxiv url: http://arxiv.org/abs/2403.02333v1
- Date: Mon, 4 Mar 2024 18:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:26:39.568965
- Title: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical
Reasoning
- Title(参考訳): 数学的推論の強化によるキーポイント駆動データ合成
- Authors: Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan,
Weizhu Chen
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示している。
KPMathは、現在までの数学的推論に適した、最も広範な合成データセットである。
KPMath-Plus上のMistral-7Bモデルを微調整すると、MATHテストセットでのPASS@1の精度は39.3%になる。
- 参考スコア(独自算出の注目度): 116.3631185427079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great potential in complex reasoning
tasks, yet their performance is often hampered by the scarcity of high-quality,
reasoning-focused training datasets. Addressing this challenge, we propose
Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that
synthesizes question-answer pairs by leveraging key points and exemplar pairs
from authentic data sources. KPDDS ensures the generation of novel questions
with rigorous quality control and substantial scalability. As a result, we
present KPMath, the most extensive synthetic dataset tailored for mathematical
reasoning to date, comprising over one million question-answer pairs. Utilizing
KPMath and augmenting it with additional reasoning-intensive corpora, we create
the comprehensive KPMath-Plus dataset. Fine-tuning the Mistral-7B model on
KPMath-Plus yields a zero-shot PASS@1 accuracy of 39.3% on the MATH test set, a
performance that not only outpaces other finetuned 7B models but also exceeds
that of certain 34B models. Our ablation studies further confirm the
substantial enhancement in mathematical reasoning across various subtopics,
marking a significant stride in LLMs' reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質な推論中心のトレーニングデータセットの不足によってしばしば妨げられている。
そこで,本研究では,キーポイントと実データソースからのexemplarペアを活用し,質問応答対を合成する新しいデータ合成フレームワークであるkpddsを提案する。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
その結果、KPMathは数学的推論に適した最も広範な合成データセットであり、100万以上の質問応答対から構成されている。
KPMathを利用し、さらに推論集約コーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。
kpmath-plus上のmistral-7bモデルの微調整により、数学テストセットにおけるゼロショットパス@1の精度は39.3%となり、他の微調整された7bモデルを上回るだけでなく、特定の34bモデルを超える性能となる。
我々のアブレーション研究は、様々なサブトピックにおける数学的推論の大幅な向上をさらに確認し、LLMの推論能力に大きな進歩をもたらした。
関連論文リスト
- Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。
複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。
主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。
他の選択戦略との比較は、QaDSの優位性を検証する。
OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文 参考訳(メタデータ) (2024-04-01T12:01:06Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and
the Case of Information Extraction [28.51694365908817]
本研究は,大規模言語モデルでは直接解けないタスクに対しても,有用なデータを合成的に生成できることを示唆する。
我々は、1.8Mのデータポイントのデータセットを合成的に生成し、人間の評価において既存のデータセットと比較して優れた品質を確立する。
論文 参考訳(メタデータ) (2023-03-07T18:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。