論文の概要: Data-Juicer: A One-Stop Data Processing System for Large Language Models
- arxiv url: http://arxiv.org/abs/2309.02033v3
- Date: Wed, 20 Dec 2023 08:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 21:48:07.669329
- Title: Data-Juicer: A One-Stop Data Processing System for Large Language Models
- Title(参考訳): Data-Juicer:大規模言語モデルのためのワンストップデータ処理システム
- Authors: Daoyuan Chen, Yilun Huang, Zhijian Ma, Hesen Chen, Xuchen Pan, Ce Ge,
Dawei Gao, Yuexiang Xie, Zhaoyang Liu, Jinyang Gao, Yaliang Li, Bolin Ding,
Jingren Zhou
- Abstract要約: データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
- 参考スコア(独自算出の注目度): 73.27731037450995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The immense evolution in Large Language Models (LLMs) has underscored the
importance of massive, heterogeneous, and high-quality data. A data recipe is a
mixture of data from different sources for training LLMs, which plays a vital
role in LLMs' performance. Existing open-source tools for LLM data processing
are mostly tailored for specific data recipes. To continuously uncover the
potential of LLMs, incorporate data from new sources, and improve LLMs'
performance, we build a new system named Data-Juicer, with which we can
efficiently generate diverse data recipes, explore different possibilities in
forming data mixtures, and evaluate their effects on model performance.
Different from traditional data-analytics pipelines, Data-Juicer faces some
unique challenges. Firstly, the possible data sources for forming data recipes
are truly heterogeneous and massive with various qualities. Secondly, it is
extremely expensive to precisely evaluate data recipes' impact on LLMs'
performance. Thirdly, the end users of Data-Juicer, model developers, need
sufficient flexibility to configure and evaluate different data recipes.
Data-Juicer features a fine-grained abstraction of pipelines for constructing
data recipes, with over 50 built-in operators for easy composition and
extension. By incorporating visualization and auto-evaluation capabilities,
Data-Juicer enables a timely feedback loop for both LLM pre-training and
fine-tuning. Further, Data-Juicer is optimized and integrated with ecosystems
for LLM training, evaluation, and distributed computing. The data recipes
derived with Data-Juicer gain notable improvements on state-of-the-art LLMs, by
up to 7.45% increase in averaged score across 16 LLM benchmarks and 17.5%
higher win rate in pair-wise GPT-4 evaluations. Our system, data recipes, and
tutorials are released, calling for broader data-centric research on training
and understanding LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の膨大な進化は、大規模で異質で高品質なデータの重要性を強調している。
データレシピは、LLMのパフォーマンスにおいて重要な役割を果たすLLMをトレーニングするための異なるソースからのデータの混合である。
LLMデータ処理のための既存のオープンソースツールは、主に特定のデータレシピに適したものだ。
llmの可能性を継続的に解明し、新たなソースからのデータを取り込んで、llmsのパフォーマンスを向上させるために、さまざまなデータレシピを効率的に生成し、データ混合の形成におけるさまざまな可能性を調査し、モデルパフォーマンスへの影響を評価する、data-juicerという新しいシステムを構築した。
従来のデータ分析パイプラインとは異なり、Data-Juicerにはいくつかの固有の課題がある。
第一に、データレシピを形成するためのデータソースは、真に異質で、様々な性質を持つ。
第2に、LCMの性能に対するデータレシピの影響を正確に評価することは極めて高価である。
第3に,モデル開発者であるdata-juicerのエンドユーザは,さまざまなデータレシピの設定と評価に十分な柔軟性が必要です。
data-juicerは、データレシピ構築のためのパイプラインの詳細な抽象化と、構成と拡張を簡単にするための50以上の組み込みオペレータを備えている。
可視化と自動評価機能を組み込むことで、Data-JuicerはLLM事前トレーニングと微調整の両方のタイムリーなフィードバックループを可能にする。
さらに、Data-JuicerはLLMトレーニング、評価、分散コンピューティングのためのエコシステムに最適化され、統合されている。
Data-Juicer から派生したデータレシピは、最先端の LLM に対して顕著に改善され、16 LLM ベンチマークの平均スコアは7.45%増加し、ペアワイド GPT-4 評価では17.5%上昇した。
我々のシステム、データレシピ、チュートリアルがリリースされ、LLMの学習と理解に関するより広範なデータ中心の研究が求められます。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。