論文の概要: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2403.02333v3
- Date: Wed, 8 May 2024 01:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 16:34:07.208589
- Title: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning
- Title(参考訳): 数理推論に基づくキーポイント駆動データ合成
- Authors: Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen,
- Abstract要約: キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
- 参考スコア(独自算出の注目度): 110.80663974060624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great potential in complex reasoning tasks, yet their performance is often hampered by the scarcity of high-quality and reasoning-focused training datasets. Addressing this challenge, we propose Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that synthesizes question-answer pairs by leveraging key points and exemplar practices from authentic data sources. KPDDS ensures the generation of novel questions with rigorous quality control and substantial scalability. As a result, we present KPMath, an extensive synthetic dataset tailored for mathematical reasoning, comprising over 800K question-answer pairs. Utilizing KPMath and augmenting it with additional reasoning-intensive corpora, we create the comprehensive KPMath-Plus dataset. The Qwen1.5-72B model, fine-tuned on KPMath-Plus, achieves 87.0% PASS@1 accuracy on GSM8K and 58.3% on MATH, surpassing competitors in the 7B to 70B range and best commercial models like GPT-4 across multiple math reasoning datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質で推論にフォーカスしたトレーニングデータセットの不足によってしばしば妨げられている。
この課題に対処するため,キーポイント駆動型データ合成(KPDDS)を提案する。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
その結果、KPMathは、800万以上の質問応答対からなる数学的推論に適した、広範囲な合成データセットである。
KPMathを利用し、さらに推論集約的なコーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。
KPMath-Plusで微調整されたQwen1.5-72Bモデルは、GSM8Kで87.0%のPASS@1精度、MATHで58.3%の精度を達成し、7Bから70Bの競争相手と、複数の数学推論データセットでGPT-4のような最高の商用モデルを上回る。
関連論文リスト
- A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions [80.55890939658416]
グラフベースのSynthetic Data Pipeline(GSDP)は、高品質な推論データ合成のための経済的かつスケーラブルなフレームワークである。
オープンソースモデルが主導するGSDPは、GPT-4-0613に匹敵する合成品質を達成しつつ、100ドル安いコストを維持できる。
最も困難な数学的推論課題に取り組むために,161万組以上の数学問題と解からなるGSDP-MATHデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-12T01:52:25Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。
複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。
主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。