論文の概要: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical
Reasoning
- arxiv url: http://arxiv.org/abs/2403.02333v1
- Date: Mon, 4 Mar 2024 18:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:26:39.568965
- Title: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical
Reasoning
- Title(参考訳): 数学的推論の強化によるキーポイント駆動データ合成
- Authors: Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan,
Weizhu Chen
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示している。
KPMathは、現在までの数学的推論に適した、最も広範な合成データセットである。
KPMath-Plus上のMistral-7Bモデルを微調整すると、MATHテストセットでのPASS@1の精度は39.3%になる。
- 参考スコア(独自算出の注目度): 116.3631185427079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great potential in complex reasoning
tasks, yet their performance is often hampered by the scarcity of high-quality,
reasoning-focused training datasets. Addressing this challenge, we propose
Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that
synthesizes question-answer pairs by leveraging key points and exemplar pairs
from authentic data sources. KPDDS ensures the generation of novel questions
with rigorous quality control and substantial scalability. As a result, we
present KPMath, the most extensive synthetic dataset tailored for mathematical
reasoning to date, comprising over one million question-answer pairs. Utilizing
KPMath and augmenting it with additional reasoning-intensive corpora, we create
the comprehensive KPMath-Plus dataset. Fine-tuning the Mistral-7B model on
KPMath-Plus yields a zero-shot PASS@1 accuracy of 39.3% on the MATH test set, a
performance that not only outpaces other finetuned 7B models but also exceeds
that of certain 34B models. Our ablation studies further confirm the
substantial enhancement in mathematical reasoning across various subtopics,
marking a significant stride in LLMs' reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質な推論中心のトレーニングデータセットの不足によってしばしば妨げられている。
そこで,本研究では,キーポイントと実データソースからのexemplarペアを活用し,質問応答対を合成する新しいデータ合成フレームワークであるkpddsを提案する。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
その結果、KPMathは数学的推論に適した最も広範な合成データセットであり、100万以上の質問応答対から構成されている。
KPMathを利用し、さらに推論集約コーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。
kpmath-plus上のmistral-7bモデルの微調整により、数学テストセットにおけるゼロショットパス@1の精度は39.3%となり、他の微調整された7bモデルを上回るだけでなく、特定の34bモデルを超える性能となる。
我々のアブレーション研究は、様々なサブトピックにおける数学的推論の大幅な向上をさらに確認し、LLMの推論能力に大きな進歩をもたらした。
関連論文リスト
- A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions [80.55890939658416]
グラフベースのSynthetic Data Pipeline(GSDP)は、高品質な推論データ合成のための経済的かつスケーラブルなフレームワークである。
オープンソースモデルが主導するGSDPは、GPT-4-0613に匹敵する合成品質を達成しつつ、100ドル安いコストを維持できる。
最も困難な数学的推論課題に取り組むために,161万組以上の数学問題と解からなるGSDP-MATHデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-12T01:52:25Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。
複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。
主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。