論文の概要: SlimPajama-DC: Understanding Data Combinations for LLM Training
- arxiv url: http://arxiv.org/abs/2309.10818v1
- Date: Tue, 19 Sep 2023 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:03:46.363967
- Title: SlimPajama-DC: Understanding Data Combinations for LLM Training
- Title(参考訳): SlimPajama-DC: LLMトレーニングのためのデータ組み合わせを理解する
- Authors: Zhiqiang Shen and Tianhua Tao and Liqun Ma and Willie Neiswanger and
Joel Hestness and Natalia Vassilieva and Daria Soboleva and Eric Xing
- Abstract要約: 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。
SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
- 参考スコア(独自算出の注目度): 35.32589245867987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to understand the impacts of various data combinations (e.g.,
web text, wikipedia, github, books) on the training of large language models
using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source
dataset, which has been refined and further deduplicated to 627B tokens from
the extensive 1.2T tokens RedPajama dataset contributed by Together. We've
termed our research as SlimPajama-DC, an empirical analysis designed to uncover
fundamental characteristics and best practices associated with employing
SlimPajama in the training of large language models. During our research with
SlimPajama, two pivotal observations emerged: (1) Global deduplication vs.
local deduplication. We analyze and discuss how global (across different
sources of datasets) and local (within the single source of dataset)
deduplications affect the performance of trained models. (2) Proportions of
high-quality/highly-deduplicated multi-source datasets in the combination. To
study this, we construct six configurations of SlimPajama dataset and train
individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best
configuration outperforms the 1.3B model trained on RedPajama using the same
number of training tokens by a significant margin. All our 1.3B models are
trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16
mixed precision. We further extend our discoveries (such as increasing data
diversity is crucial after global deduplication) on a 7B model with large
batch-size training. Our models and the separate SlimPajama-DC datasets are
available at: https://huggingface.co/MBZUAI-LLM and
https://huggingface.co/datasets/cerebras/SlimPajama-627B.
- Abstract(参考訳): 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせ(Webテキスト,wikipedia,github,書籍など)の影響を理解することを目的とする。
SlimPajamaは厳格に非重複化されたマルチソースデータセットで、共用する1.2TトークンのRedPajamaデータセットから627Bトークンに切り離された。
SlimPajama-DCは、大規模な言語モデルのトレーニングにSlimPajamaを採用する際の基本的な特徴とベストプラクティスを明らかにするための実証分析です。
slimpajamaを用いた研究で,(1)グローバル重複と局所重複の2つの重要な観察が得られた。
我々は、グローバル(データセットのさまざまなソース)とローカル(データセットの単一ソース)の重複が、トレーニングされたモデルのパフォーマンスにどのように影響するかを分析し、議論する。
2) 組み合わさった高品質・高精度なマルチソースデータセットの提案
そこで本研究では,SlimPajamaデータセットの6つの構成を構築し,AlibiとSwiGLUを用いた1.3B Cerebras-GPTモデルを用いて個々の構成を訓練する。
私たちの最高の構成は、RedPajamaでトレーニングされた1.3Bモデルで、同じ数のトレーニングトークンをかなりのマージンでパフォーマンスします。
すべての1.3bモデルは、bf16混合精度で合計80pflop/sのcerebras 16$\times$ cs-2クラスタでトレーニングされています。
大規模なバッチサイズトレーニングを備えた7Bモデル上での発見をさらに拡張する(例えば、グローバルデデューケーション後のデータの多様性の向上は不可欠である)。
私たちのモデルとSlimPajama-DCデータセットは、https://huggingface.co/MBzuAI-LLMとhttps://huggingface.co/datasets/cerebras/SlimPajama-627Bで利用可能です。
関連論文リスト
- LiLiuM: eBay's Large Language Models for e-commerce [6.819297537500464]
大規模言語モデル (LLM) のLiLiuM シリーズについて紹介する: 1B, 7B, 13B パラメータモデル。
これにより、eBayは、ライセンス、データ、語彙、アーキテクチャを含むモデルのすべての側面を完全にコントロールできる。
LiLiuM LLMは、一般およびeコマースドメインから3兆個の多言語テキストのトークンで訓練されている。
論文 参考訳(メタデータ) (2024-06-17T18:45:41Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。
現在、FedLLMの現実的なデータセットやベンチマークは存在しない。
我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-07T11:19:30Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - The MiniPile Challenge for Data-Efficient Language Models [2.0305676256390934]
The MiniPile Challengeでは、少なくとも100万のドキュメントを含む多種多様なテキストコーパス上で、言語モデルを事前訓練する。
MiniPileは825GBのThe Pile corpusの6GBサブセットである。
言語モデルの事前トレーニングに対するMiniPileの適合性を検証するために、BERTとT5モデルを事前トレーニングするために使用しました。
論文 参考訳(メタデータ) (2023-04-17T17:03:56Z) - Optimizing Server-side Aggregation For Robust Federated Learning via
Subspace Training [80.03567604524268]
クライアント間の非IIDデータ分散と中毒攻撃は、現実世界のフェデレーション学習システムにおける2つの大きな課題である。
サーバ側集約プロセスを最適化する汎用的なアプローチであるSmartFLを提案する。
本稿では,SmartFLの収束と一般化能力に関する理論的解析を行う。
論文 参考訳(メタデータ) (2022-11-10T13:20:56Z) - FedBE: Making Bayesian Model Ensemble Applicable to Federated Learning [23.726336635748783]
フェデレートラーニング(Federated Learning)は、ユーザのローカルにトレーニングされたモデルにアクセスして、自身のデータではなく、強力なグローバルモデルを協調的にトレーニングすることを目的としている。
したがって、ローカルモデルをグローバルモデルに集約することが重要なステップであり、これはユーザーが非i.d.データを持つ場合に困難であることが示されている。
我々は,ハイクオリティなグローバルモデルをサンプリングすることによってベイズ推論の観点から,FedBEという新しい集約アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-04T01:18:25Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。