論文の概要: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical
Reasoning
- arxiv url: http://arxiv.org/abs/2403.02333v1
- Date: Mon, 4 Mar 2024 18:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:26:39.568965
- Title: Key-Point-Driven Data Synthesis with its Enhancement on Mathematical
Reasoning
- Title(参考訳): 数学的推論の強化によるキーポイント駆動データ合成
- Authors: Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan,
Weizhu Chen
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示している。
KPMathは、現在までの数学的推論に適した、最も広範な合成データセットである。
KPMath-Plus上のMistral-7Bモデルを微調整すると、MATHテストセットでのPASS@1の精度は39.3%になる。
- 参考スコア(独自算出の注目度): 116.3631185427079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great potential in complex reasoning
tasks, yet their performance is often hampered by the scarcity of high-quality,
reasoning-focused training datasets. Addressing this challenge, we propose
Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that
synthesizes question-answer pairs by leveraging key points and exemplar pairs
from authentic data sources. KPDDS ensures the generation of novel questions
with rigorous quality control and substantial scalability. As a result, we
present KPMath, the most extensive synthetic dataset tailored for mathematical
reasoning to date, comprising over one million question-answer pairs. Utilizing
KPMath and augmenting it with additional reasoning-intensive corpora, we create
the comprehensive KPMath-Plus dataset. Fine-tuning the Mistral-7B model on
KPMath-Plus yields a zero-shot PASS@1 accuracy of 39.3% on the MATH test set, a
performance that not only outpaces other finetuned 7B models but also exceeds
that of certain 34B models. Our ablation studies further confirm the
substantial enhancement in mathematical reasoning across various subtopics,
marking a significant stride in LLMs' reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質な推論中心のトレーニングデータセットの不足によってしばしば妨げられている。
そこで,本研究では,キーポイントと実データソースからのexemplarペアを活用し,質問応答対を合成する新しいデータ合成フレームワークであるkpddsを提案する。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
その結果、KPMathは数学的推論に適した最も広範な合成データセットであり、100万以上の質問応答対から構成されている。
KPMathを利用し、さらに推論集約コーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。
kpmath-plus上のmistral-7bモデルの微調整により、数学テストセットにおけるゼロショットパス@1の精度は39.3%となり、他の微調整された7bモデルを上回るだけでなく、特定の34bモデルを超える性能となる。
我々のアブレーション研究は、様々なサブトピックにおける数学的推論の大幅な向上をさらに確認し、LLMの推論能力に大きな進歩をもたらした。
関連論文リスト
- Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。
他の選択戦略との比較は、QaDSの優位性を検証する。
OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文 参考訳(メタデータ) (2024-04-01T12:01:06Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - Socially Aware Synthetic Data Generation for Suicidal Ideation Detection
Using Large Language Models [8.832297887534445]
我々は、生成AIモデルの能力を活用して、自殺的思考検出のための合成データを作成する革新的な戦略を導入する。
我々は、最先端のNLP分類モデル、特にBERTファミリー構造を中心としてベンチマークを行った。
我々の合成データ駆動方式は,両モデルに一貫したF1スコア(0.82)を提供する。
論文 参考訳(メタデータ) (2024-01-25T18:25:05Z) - KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning [3.103778949672541]
マルチモーダルタスクを包括的に理解するために,CoT推論,知識グラフ,複数モードを統合したフレームワークを提案する。
KAM-CoTは、効果的な合理性と答えを生成するために、KGグラウンドを用いた2段階のトレーニングプロセスを採用している。
平均精度は93.87%で、GPT-3.5(75.17%)が18%、GPT-4(83.99%)が10%を超えている。
論文 参考訳(メタデータ) (2024-01-23T15:56:11Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - TarGEN: Targeted Data Generation with Large Language Models [54.1093098278564]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and
the Case of Information Extraction [28.51694365908817]
本研究は,大規模言語モデルでは直接解けないタスクに対しても,有用なデータを合成的に生成できることを示唆する。
我々は、1.8Mのデータポイントのデータセットを合成的に生成し、人間の評価において既存のデータセットと比較して優れた品質を確立する。
論文 参考訳(メタデータ) (2023-03-07T18:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。