論文の概要: Data-Juicer: A One-Stop Data Processing System for Large Language Models
- arxiv url: http://arxiv.org/abs/2309.02033v1
- Date: Tue, 5 Sep 2023 08:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:54:59.710925
- Title: Data-Juicer: A One-Stop Data Processing System for Large Language Models
- Title(参考訳): Data-Juicer:大規模言語モデルのためのワンストップデータ処理システム
- Authors: Daoyuan Chen, Yilun Huang, Zhijian Ma, Hesen Chen, Xuchen Pan, Ce Ge,
Dawei Gao, Yuexiang Xie, Zhaoyang Liu, Jinyang Gao, Yaliang Li, Bolin Ding,
Jingren Zhou
- Abstract要約: 我々はData-Juicerという,ワンストップで強力でフレキシブルでユーザフレンドリーなLLMデータ処理システムを提案する。
我々のシステムは50以上の組み込み多目的演算子とプラグ可能なツールを提供しており、多様なLCMデータ処理に向け、モジュール性、構成性、拡張性を相乗化している。
生成されたデータレシピの実証検証により、様々な事前学習および後学習のケースにおいて、LLaMAのパフォーマンスが大幅に改善された。
- 参考スコア(独自算出の注目度): 73.27731037450995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The immense evolution in Large Language Models (LLMs) has underscored the
importance of massive, diverse, and high-quality data. Despite this, existing
open-source tools for LLM data processing remain limited and mostly tailored to
specific datasets, with an emphasis on the reproducibility of released data
over adaptability and usability, inhibiting potential applications. In
response, we propose a one-stop, powerful yet flexible and user-friendly LLM
data processing system named Data-Juicer. Our system offers over 50 built-in
versatile operators and pluggable tools, which synergize modularity,
composability, and extensibility dedicated to diverse LLM data processing
needs. By incorporating visualized and automatic evaluation capabilities,
Data-Juicer enables a timely feedback loop to accelerate data processing and
gain data insights. To enhance usability, Data-Juicer provides out-of-the-box
components for users with various backgrounds, and fruitful data recipes for
LLM pre-training and post-tuning usages. Further, we employ multi-facet system
optimization and seamlessly integrate Data-Juicer with both LLM and distributed
computing ecosystems, to enable efficient and scalable data processing.
Empirical validation of the generated data recipes reveals considerable
improvements in LLaMA performance for various pre-training and post-tuning
cases, demonstrating up to 7.45% relative improvement of averaged score across
16 LLM benchmarks and 16.25% higher win rate using pair-wise GPT-4 evaluation.
The system's efficiency and scalability are also validated, supported by up to
88.7% reduction in single-machine processing time, 77.1% and 73.1% less memory
and CPU usage respectively, and 7.91x processing acceleration when utilizing
distributed computing ecosystems. Our system, data recipes, and multiple
tutorial demos are released, calling for broader research centered on LLM data.
- Abstract(参考訳): 大規模言語モデル(LLM)の膨大な進化は、大規模で多様で高品質なデータの重要性を強調している。
それにもかかわらず、LLMデータ処理のための既存のオープンソースツールは、適応性とユーザビリティよりもリリースデータの再現性を重視し、潜在的なアプリケーションを抑制することで、主に特定のデータセットに適合する。
そこで本研究では,Data-Juicerという,ワンストップかつ強力でフレキシブルでユーザフレンドリーなLLMデータ処理システムを提案する。
当社のシステムは50以上の組み込み多用途オペレータとプラグインツールを提供しており、多様なllmデータ処理ニーズに特化したモジュール性、コンポーザビリティ、拡張性を統合している。
Data-Juicerは視覚化された自動評価機能を組み込むことで、タイムリーなフィードバックループによってデータ処理を加速し、データインサイトを得ることができる。
ユーザビリティを高めるため、Data-Juicerは、さまざまなバックグラウンドを持つユーザのためのアウト・オブ・ザ・ボックスのコンポーネントと、LLM事前トレーニングとポストチューニング使用のための実りの多いデータレシピを提供する。
さらに,マルチファセットシステムの最適化と,llmと分散コンピューティングのエコシステムとのデータjuicerをシームレスに統合することにより,効率的かつスケーラブルなデータ処理を実現する。
生成したデータレシピの実証検証により、様々な事前学習および後トレーニングのケースにおいて、LLaMAのパフォーマンスが大幅に向上し、16 LLMベンチマークの平均スコアが7.45%、ペアワイズ GPT-4 評価を用いた16.25%向上した。
システムの効率性とスケーラビリティも検証されており、シングルマシン処理時間の最大88.7%削減、メモリ使用率77.1%、CPU使用率73.1%削減、分散コンピューティングエコシステムの利用時の7.91倍の処理アクセラレーションがサポートされている。
我々のシステム、データレシピ、および複数のチュートリアルデモがリリースされ、LLMデータを中心としたより広範な研究が求められている。
関連論文リスト
- Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning [56.795078085234195]
LLMプルーニングのアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとして、C4データセットに依存している。
本研究では, LLMプルーニングにおけるキャリブレーションデータの選択を, 幅広いデータセットで評価する。
私たちの結果は、微妙でしばしば予期せぬ発見もいくつか見つけました。
論文 参考訳(メタデータ) (2024-10-09T22:00:19Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation [21.56082253577229]
金はタスクに依存しないデータ生成および知識蒸留フレームワークである。
LLMには反復的なアウト・オブ・ディストリビューション誘導フィードバック機構が採用されている。
ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。
論文 参考訳(メタデータ) (2024-03-28T18:08:22Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。