論文の概要: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2403.02333v2
- Date: Wed, 17 Apr 2024 17:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:41:31.834439
- Title: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning
- Title(参考訳): 数理推論に基づくキーポイント駆動データ合成
- Authors: Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen,
- Abstract要約: キーポイント駆動型データ合成(KPDDS)を提案する。
KPDDSは厳格な品質管理を伴う新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
- 参考スコア(独自算出の注目度): 110.80663974060624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great potential in complex reasoning tasks, yet their performance is often hampered by the scarcity of high-quality and reasoning-focused training datasets. Addressing this challenge, we propose Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that synthesizes question-answer pairs by leveraging key points and exemplar practices from authentic data sources. KPDDS ensures the generation of novel questions with rigorous quality control and substantial scalability. As a result, we present KPMath, an extensive synthetic dataset tailored for mathematical reasoning, comprising over 800K question-answer pairs. Utilizing KPMath and augmenting it with additional reasoning-intensive corpora, we create the comprehensive KPMath-Plus dataset. The fine-tuned DeepSeekMath model on KPMath-Plus achieves zero-shot PASS@1 accuracies of 83.9% on GSM8K and 48.8% on MATH, and also reaches promising performance on other math reasoning datasets, outperforming competitors in the 7B to 70B range.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質で推論にフォーカスしたトレーニングデータセットの不足によってしばしば妨げられている。
この課題に対処するため,キーポイント駆動型データ合成(KPDDS)を提案する。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
その結果、KPMathは、800万以上の質問応答対からなる数学的推論に適した、広範囲な合成データセットである。
KPMathを利用し、さらに推論集約的なコーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。
微調整されたKPMath-PlusのDeepSeekMathモデルは、GSM8Kでは83.9%、MATHでは48.8%というゼロショットのPASS@1アキュラシーを達成し、他の数学推論データセットでは有望なパフォーマンスを達成し、7Bから70Bの範囲ではライバルよりも優れていた。
関連論文リスト
- Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。
他の選択戦略との比較は、QaDSの優位性を検証する。
OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文 参考訳(メタデータ) (2024-04-01T12:01:06Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - Socially Aware Synthetic Data Generation for Suicidal Ideation Detection
Using Large Language Models [8.832297887534445]
我々は、生成AIモデルの能力を活用して、自殺的思考検出のための合成データを作成する革新的な戦略を導入する。
我々は、最先端のNLP分類モデル、特にBERTファミリー構造を中心としてベンチマークを行った。
我々の合成データ駆動方式は,両モデルに一貫したF1スコア(0.82)を提供する。
論文 参考訳(メタデータ) (2024-01-25T18:25:05Z) - KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning [3.103778949672541]
マルチモーダルタスクを包括的に理解するために,CoT推論,知識グラフ,複数モードを統合したフレームワークを提案する。
KAM-CoTは、効果的な合理性と答えを生成するために、KGグラウンドを用いた2段階のトレーニングプロセスを採用している。
平均精度は93.87%で、GPT-3.5(75.17%)が18%、GPT-4(83.99%)が10%を超えている。
論文 参考訳(メタデータ) (2024-01-23T15:56:11Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - TarGEN: Targeted Data Generation with Large Language Models [54.1093098278564]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and
the Case of Information Extraction [28.51694365908817]
本研究は,大規模言語モデルでは直接解けないタスクに対しても,有用なデータを合成的に生成できることを示唆する。
我々は、1.8Mのデータポイントのデータセットを合成的に生成し、人間の評価において既存のデータセットと比較して優れた品質を確立する。
論文 参考訳(メタデータ) (2023-03-07T18:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。