Fugu-MT 論文翻訳(概要): SlimPajama-DC: Understanding Data Combinations for LLM Training

論文の概要: SlimPajama-DC: Understanding Data Combinations for LLM Training

arxiv url: http://arxiv.org/abs/2309.10818v1
Date: Tue, 19 Sep 2023 17:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 13:03:46.363967
Title: SlimPajama-DC: Understanding Data Combinations for LLM Training
Title（参考訳）: SlimPajama-DC: LLMトレーニングのためのデータ組み合わせを理解する
Authors: Zhiqiang Shen and Tianhua Tao and Liqun Ma and Willie Neiswanger and Joel Hestness and Natalia Vassilieva and Daria Soboleva and Eric Xing
Abstract要約: 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
参考スコア（独自算出の注目度）: 35.32589245867987
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper aims to understand the impacts of various data combinations (e.g., web text, wikipedia, github, books) on the training of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T tokens RedPajama dataset contributed by Together. We've termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of high-quality/highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations of SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our models and the separate SlimPajama-DC datasets are available at: https://huggingface.co/MBZUAI-LLM and https://huggingface.co/datasets/cerebras/SlimPajama-627B.
Abstract（参考訳）: 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせ(Webテキスト,wikipedia,github,書籍など)の影響を理解することを目的とする。 SlimPajamaは厳格に非重複化されたマルチソースデータセットで、共用する1.2TトークンのRedPajamaデータセットから627Bトークンに切り離された。 SlimPajama-DCは、大規模な言語モデルのトレーニングにSlimPajamaを採用する際の基本的な特徴とベストプラクティスを明らかにするための実証分析です。 slimpajamaを用いた研究で,(1)グローバル重複と局所重複の2つの重要な観察が得られた。我々は、グローバル(データセットのさまざまなソース)とローカル(データセットの単一ソース)の重複が、トレーニングされたモデルのパフォーマンスにどのように影響するかを分析し、議論する。 2) 組み合わさった高品質・高精度なマルチソースデータセットの提案そこで本研究では,SlimPajamaデータセットの6つの構成を構築し,AlibiとSwiGLUを用いた1.3B Cerebras-GPTモデルを用いて個々の構成を訓練する。私たちの最高の構成は、RedPajamaでトレーニングされた1.3Bモデルで、同じ数のトレーニングトークンをかなりのマージンでパフォーマンスします。すべての1.3bモデルは、bf16混合精度で合計80pflop/sのcerebras 16$\times$ cs-2クラスタでトレーニングされています。大規模なバッチサイズトレーニングを備えた7Bモデル上での発見をさらに拡張する(例えば、グローバルデデューケーション後のデータの多様性の向上は不可欠である)。私たちのモデルとSlimPajama-DCデータセットは、https://huggingface.co/MBzuAI-LLMとhttps://huggingface.co/datasets/cerebras/SlimPajama-627Bで利用可能です。

関連論文リスト

Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。 ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文参考訳（メタデータ） (2025-04-17T17:58:13Z)
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。 xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文参考訳（メタデータ） (2025-04-04T17:13:57Z)
TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文参考訳（メタデータ） (2024-10-23T18:00:00Z)
LiLiuM: eBay's Large Language Models for e-commerce [6.819297537500464]
大規模言語モデル (LLM) のLiLiuM シリーズについて紹介する: 1B, 7B, 13B パラメータモデル。これにより、eBayは、ライセンス、データ、語彙、アーキテクチャを含むモデルのすべての側面を完全にコントロールできる。 LiLiuM LLMは、一般およびeコマースドメインから3兆個の多言語テキストのトークンで訓練されている。
論文参考訳（メタデータ） (2024-06-17T18:45:41Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。現在、FedLLMの現実的なデータセットやベンチマークは存在しない。我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文参考訳（メタデータ） (2024-06-07T11:19:30Z)
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文参考訳（メタデータ） (2023-08-21T14:40:48Z)
"Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文参考訳（メタデータ） (2023-06-05T21:38:30Z)
The MiniPile Challenge for Data-Efficient Language Models [2.0305676256390934]
The MiniPile Challengeでは、少なくとも100万のドキュメントを含む多種多様なテキストコーパス上で、言語モデルを事前訓練する。 MiniPileは825GBのThe Pile corpusの6GBサブセットである。言語モデルの事前トレーニングに対するMiniPileの適合性を検証するために、BERTとT5モデルを事前トレーニングするために使用しました。
論文参考訳（メタデータ） (2023-04-17T17:03:56Z)
Optimizing Server-side Aggregation For Robust Federated Learning via Subspace Training [80.03567604524268]
クライアント間の非IIDデータ分散と中毒攻撃は、現実世界のフェデレーション学習システムにおける2つの大きな課題である。サーバ側集約プロセスを最適化する汎用的なアプローチであるSmartFLを提案する。本稿では,SmartFLの収束と一般化能力に関する理論的解析を行う。
論文参考訳（メタデータ） (2022-11-10T13:20:56Z)
FedBE: Making Bayesian Model Ensemble Applicable to Federated Learning [23.726336635748783]
フェデレートラーニング(Federated Learning)は、ユーザのローカルにトレーニングされたモデルにアクセスして、自身のデータではなく、強力なグローバルモデルを協調的にトレーニングすることを目的としている。したがって、ローカルモデルをグローバルモデルに集約することが重要なステップであり、これはユーザーが非i.d.データを持つ場合に困難であることが示されている。我々は,ハイクオリティなグローバルモデルをサンプリングすることによってベイズ推論の観点から,FedBEという新しい集約アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-04T01:18:25Z)
Automatic sleep stage classification with deep residual networks in a mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文参考訳（メタデータ） (2020-08-21T10:48:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。