論文の概要: A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions
- arxiv url: http://arxiv.org/abs/2412.08864v1
- Date: Thu, 12 Dec 2024 01:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:38.983718
- Title: A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions
- Title(参考訳): 高品質推論命令のスケーリングのためのグラフベース合成データパイプライン
- Authors: Jiankang Wang, Jianjun Xu, Xiaorui Wang, Yuxin Wang, Mengting Xing, Shancheng Fang, Zhineng Chen, Hongtao Xie, Yongdong Zhang,
- Abstract要約: グラフベースのSynthetic Data Pipeline(GSDP)は、高品質な推論データ合成のための経済的かつスケーラブルなフレームワークである。
オープンソースモデルが主導するGSDPは、GPT-4-0613に匹敵する合成品質を達成しつつ、100ドル安いコストを維持できる。
最も困難な数学的推論課題に取り組むために,161万組以上の数学問題と解からなるGSDP-MATHデータセットを提案する。
- 参考スコア(独自算出の注目度): 80.55890939658416
- License:
- Abstract: Synthesizing high-quality reasoning data for continual training has been proven to be effective in enhancing the performance of Large Language Models (LLMs). However, previous synthetic approaches struggle to easily scale up data and incur high costs in the pursuit of high quality. In this paper, we propose the Graph-based Synthetic Data Pipeline (GSDP), an economical and scalable framework for high-quality reasoning data synthesis. Inspired by knowledge graphs, we extracted knowledge points from seed data and constructed a knowledge point relationships graph to explore their interconnections. By exploring the implicit relationships among knowledge, our method achieves $\times$255 data expansion. Furthermore, GSDP led by open-source models, achieves synthesis quality comparable to GPT-4-0613 while maintaining $\times$100 lower costs. To tackle the most challenging mathematical reasoning task, we present the GSDP-MATH dataset comprising over 1.91 million pairs of math problems and answers. After fine-tuning on GSDP-MATH, GSDP-7B based on Mistral-7B achieves 37.7% accuracy on MATH and 78.4% on GSM8K, demonstrating the effectiveness of our method. The dataset and models trained in this paper will be available.
- Abstract(参考訳): 連続訓練のための高品質な推論データを合成することは,大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
しかし, 従来の合成手法では, データのスケールアップや高コスト化に苦慮していた。
本稿では,高品質な推論データ合成のための,経済的かつスケーラブルなフレームワークであるグラフベースのSynthetic Data Pipeline (GSDP)を提案する。
知識グラフに着想を得て,シードデータから知識点を抽出し,知識点関係グラフを構築して相互接続を探索した。
知識間の暗黙の関係を探索することにより,255ドルのデータ拡張を実現する。
さらに、オープンソースモデルによるGSDPは、GPT-4-0613に匹敵する合成品質を達成し、100ドル安いコストを維持できる。
最も困難な数学的推論課題に取り組むために,161万組以上の数学問題と解からなるGSDP-MATHデータセットを提案する。
GSDP-MATHを微調整した後,Mistral-7BをベースとしたGSDP-7BはMATHで37.7%,GSM8Kで78.4%の精度を達成し,本手法の有効性を実証した。
この論文でトレーニングされたデータセットとモデルが利用可能だ。
関連論文リスト
- Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch [28.519536719973317]
ScaleQuestはスケーラブルで斬新なデータ合成手法である。
複雑な拡張制約を持つシードデータを必要とせずに、スクラッチから質問を生成する。
主要なオープンソースモデルの性能を普遍的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Node Feature Extraction by Self-Supervised Multi-scale Neighborhood
Prediction [123.20238648121445]
我々は、新しい自己教師型学習フレームワーク、グラフ情報支援ノード機能exTraction (GIANT)を提案する。
GIANT は eXtreme Multi-label Classification (XMC) 形式を利用しており、これはグラフ情報に基づいた言語モデルの微調整に不可欠である。
我々は,Open Graph Benchmarkデータセット上での標準GNNパイプラインよりもGIANTの方が優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-29T19:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。