論文の概要: SlimPajama-DC: Understanding Data Combinations for LLM Training
- arxiv url: http://arxiv.org/abs/2309.10818v1
- Date: Tue, 19 Sep 2023 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:03:46.363967
- Title: SlimPajama-DC: Understanding Data Combinations for LLM Training
- Title(参考訳): SlimPajama-DC: LLMトレーニングのためのデータ組み合わせを理解する
- Authors: Zhiqiang Shen and Tianhua Tao and Liqun Ma and Willie Neiswanger and
Joel Hestness and Natalia Vassilieva and Daria Soboleva and Eric Xing
- Abstract要約: 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。
SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
- 参考スコア(独自算出の注目度): 35.32589245867987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to understand the impacts of various data combinations (e.g.,
web text, wikipedia, github, books) on the training of large language models
using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source
dataset, which has been refined and further deduplicated to 627B tokens from
the extensive 1.2T tokens RedPajama dataset contributed by Together. We've
termed our research as SlimPajama-DC, an empirical analysis designed to uncover
fundamental characteristics and best practices associated with employing
SlimPajama in the training of large language models. During our research with
SlimPajama, two pivotal observations emerged: (1) Global deduplication vs.
local deduplication. We analyze and discuss how global (across different
sources of datasets) and local (within the single source of dataset)
deduplications affect the performance of trained models. (2) Proportions of
high-quality/highly-deduplicated multi-source datasets in the combination. To
study this, we construct six configurations of SlimPajama dataset and train
individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best
configuration outperforms the 1.3B model trained on RedPajama using the same
number of training tokens by a significant margin. All our 1.3B models are
trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16
mixed precision. We further extend our discoveries (such as increasing data
diversity is crucial after global deduplication) on a 7B model with large
batch-size training. Our models and the separate SlimPajama-DC datasets are
available at: https://huggingface.co/MBZUAI-LLM and
https://huggingface.co/datasets/cerebras/SlimPajama-627B.
- Abstract(参考訳): 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせ(Webテキスト,wikipedia,github,書籍など)の影響を理解することを目的とする。
SlimPajamaは厳格に非重複化されたマルチソースデータセットで、共用する1.2TトークンのRedPajamaデータセットから627Bトークンに切り離された。
SlimPajama-DCは、大規模な言語モデルのトレーニングにSlimPajamaを採用する際の基本的な特徴とベストプラクティスを明らかにするための実証分析です。
slimpajamaを用いた研究で,(1)グローバル重複と局所重複の2つの重要な観察が得られた。
我々は、グローバル(データセットのさまざまなソース)とローカル(データセットの単一ソース)の重複が、トレーニングされたモデルのパフォーマンスにどのように影響するかを分析し、議論する。
2) 組み合わさった高品質・高精度なマルチソースデータセットの提案
そこで本研究では,SlimPajamaデータセットの6つの構成を構築し,AlibiとSwiGLUを用いた1.3B Cerebras-GPTモデルを用いて個々の構成を訓練する。
私たちの最高の構成は、RedPajamaでトレーニングされた1.3Bモデルで、同じ数のトレーニングトークンをかなりのマージンでパフォーマンスします。
すべての1.3bモデルは、bf16混合精度で合計80pflop/sのcerebras 16$\times$ cs-2クラスタでトレーニングされています。
大規模なバッチサイズトレーニングを備えた7Bモデル上での発見をさらに拡張する(例えば、グローバルデデューケーション後のデータの多様性の向上は不可欠である)。
私たちのモデルとSlimPajama-DCデータセットは、https://huggingface.co/MBzuAI-LLMとhttps://huggingface.co/datasets/cerebras/SlimPajama-627Bで利用可能です。
関連論文リスト
- WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - The MiniPile Challenge for Data-Efficient Language Models [2.0305676256390934]
The MiniPile Challengeでは、少なくとも100万のドキュメントを含む多種多様なテキストコーパス上で、言語モデルを事前訓練する。
MiniPileは825GBのThe Pile corpusの6GBサブセットである。
言語モデルの事前トレーニングに対するMiniPileの適合性を検証するために、BERTとT5モデルを事前トレーニングするために使用しました。
論文 参考訳(メタデータ) (2023-04-17T17:03:56Z) - Federated Semi-Supervised Learning with Annotation Heterogeneity [57.12560313403097]
Heterogenely Annotated Semi-Supervised LEarning (HASSLE) という新しいフレームワークを提案する。
ラベル付きデータとラベルなしデータで個別にトレーニングされた2つのモデルを持つデュアルモデルフレームワークである。
デュアルモデルは、異なるクライアントにわたる両方のタイプのデータから暗黙的に学習することができるが、各デュアルモデルは、単一のタイプのデータに対してのみローカルにトレーニングされる。
論文 参考訳(メタデータ) (2023-03-04T16:04:49Z) - Fusion of Global and Local Knowledge for Personalized Federated Learning [75.20751492913892]
本稿では,低ランクおよびスパース分解を伴うパーソナライズされたモデルについて検討する。
我々はtextbfSparse と textbfRank を混合した2段階学習アルゴリズム textbfFederated Learning を提案する。
適切な仮定の下では、FedSLRによって訓練されたGKRが、少なくとも準線形に正規化問題の定常点に収束できることが示される。
論文 参考訳(メタデータ) (2023-02-21T23:09:45Z) - Optimizing Server-side Aggregation For Robust Federated Learning via
Subspace Training [80.03567604524268]
クライアント間の非IIDデータ分散と中毒攻撃は、現実世界のフェデレーション学習システムにおける2つの大きな課題である。
サーバ側集約プロセスを最適化する汎用的なアプローチであるSmartFLを提案する。
本稿では,SmartFLの収束と一般化能力に関する理論的解析を行う。
論文 参考訳(メタデータ) (2022-11-10T13:20:56Z) - Multi-VFL: A Vertical Federated Learning System for Multiple Data and
Label Owners [10.507522234243021]
本稿では,複数のデータとラベルを持つ場合のVFLモデルの学習方法として,Multi-VFL(Multi-VFL)を提案する。
モデルアグリゲーションのための適応データセットを用いることで収束が加速し、精度が向上することを示す。
論文 参考訳(メタデータ) (2021-06-10T03:00:57Z) - FedBE: Making Bayesian Model Ensemble Applicable to Federated Learning [23.726336635748783]
フェデレートラーニング(Federated Learning)は、ユーザのローカルにトレーニングされたモデルにアクセスして、自身のデータではなく、強力なグローバルモデルを協調的にトレーニングすることを目的としている。
したがって、ローカルモデルをグローバルモデルに集約することが重要なステップであり、これはユーザーが非i.d.データを持つ場合に困難であることが示されている。
我々は,ハイクオリティなグローバルモデルをサンプリングすることによってベイズ推論の観点から,FedBEという新しい集約アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-04T01:18:25Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。