論文の概要: Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset
- arxiv url: http://arxiv.org/abs/2412.02595v1
- Date: Tue, 03 Dec 2024 17:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:50.143467
- Title: Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset
- Title(参考訳): ネモトロン-CC:コモン・クロールを改良した長軸プレトレーニングデータセットに変換する
- Authors: Dan Su, Kezhi Kong, Ying Lin, Joseph Jennings, Brandon Norick, Markus Kliegl, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro,
- Abstract要約: 精度とデータ量とのトレードオフを改善する方法を示します。
15Tトークンのためにトレーニングされた8Bパラメータモデルで、うち7.2Tは、Llama 3.1 8Bモデルよりも優れている。
- 参考スコア(独自算出の注目度): 33.182239609625505
- License:
- Abstract: Recent English Common Crawl datasets like FineWeb-Edu and DCLM achieved significant benchmark gains via aggressive model-based filtering, but at the cost of removing 90% of data. This limits their suitability for long token horizon training, such as 15T tokens for Llama 3.1. In this paper, we show how to achieve better trade-offs between accuracy and data quantity by a combination of classifier ensembling, synthetic data rephrasing, and reduced reliance on heuristic filters. When training 8B parameter models for 1T tokens, using a high-quality subset of our data improves MMLU by 5.6 over DCLM, demonstrating the efficacy of our methods for boosting accuracies over a relatively short token horizon. Furthermore, our full 6.3T token dataset matches DCLM on MMLU, but contains four times more unique real tokens than DCLM. This unlocks state-of-the-art training over a long token horizon: an 8B parameter model trained for 15T tokens, of which 7.2T came from our dataset, is better than the Llama 3.1 8B model: +5 on MMLU, +3.1 on ARC-Challenge, and +0.5 on average across ten diverse tasks. The dataset is available at https://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.html
- Abstract(参考訳): 最近のイングリッシュ・コモン・クローリングデータセットであるFineWeb-EduやDCLMは、アグレッシブなモデルベースのフィルタリングによって大きなベンチマークを達成しているが、90%のデータを削除した。
これにより、Llama 3.1の15Tトークンのような長いトークン水平線トレーニングへの適合性が制限される。
本稿では,分類器アンサンブル,合成データリフレージング,ヒューリスティックフィルタへの依存性の低減と組み合わせて,精度とデータ量とのトレードオフを改善する方法について述べる。
1Tトークンに対する8Bパラメータモデルをトレーニングする場合、データの高品質なサブセットを使用することで、MMLUがDCLMよりも5.6向上し、比較的短いトークン水平線上で精度を高める方法の有効性が実証された。
さらに、我々のフル6.3TトークンデータセットはMMLU上でDCLMと一致するが、DCLMよりも4倍ユニークな実トークンを含んでいる。
15Tトークンのためにトレーニングされた8Bパラメータモデルで、うち7.2Tは私たちのデータセットから来たもので、Llama 3.1 8Bモデルよりも優れている:MMLUでは+5、ARC-Challengeでは+3.1、ARC-Challengeでは+0.5、そして10種類のタスクで平均+0.5である。
データセットはhttps://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.htmlで公開されている。
関連論文リスト
- Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Does your data spark joy? Performance gains from domain upsampling at the end of training [16.572129046599937]
大規模なFLモデルスケールでのトレーニングにおけるドメイン固有のデータセットの影響を理解することは、費用がかかる。
ドメインアップサンプリングを使用して、さまざまなベンチマークを改善するために、個々のデータセットの有用性を大規模に特徴付ける。
このツールは、さまざまな事前トレーニングデータセットの影響を大規模に実験する機能を開放するが、完全な事前トレーニング実行に比べてコストが低い。
論文 参考訳(メタデータ) (2024-06-05T17:29:15Z) - Rho-1: Not All Tokens Are What You Need [132.31428897792114]
以前の言語モデル事前学習手法は、すべてのトレーニングトークンに次トーケン予測損失を均一に適用した。
最初の分析では,異なるトークンの損失パターンを明らかにするために,言語モデルのトークンレベルのトレーニングダイナミクスについて検討した。
コーパス内のすべての次のトークンを予測することを学ぶ従来のLMとは異なり、Rho-1は選択言語モデリング(SLM)を採用している。
Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文 参考訳(メタデータ) (2024-04-11T17:52:01Z) - SkipViT: Speeding Up Vision Transformers with a Token-Level Skip
Connection [3.960622297616708]
本稿では、異なる低コストの計算経路を分離して送信することで、重要でないトークン間の不要な相互作用量を最適化する手法を提案する。
スクラッチからViT-smallをトレーニングする実験結果から,SkipViTはトークンの55%を効果的に削減でき,トレーニングスループットは13%以上向上した。
論文 参考訳(メタデータ) (2024-01-27T04:24:49Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - Simplex Autoencoders [1.3960152426268768]
本稿では,オートエンコーダの潜伏空間を単純な表現としてモデル化し,混合モデルの成分数を決定する新しい手法を提案する。
合成データセットに対する我々のアプローチを評価し,その性能を3つのベンチマークデータセットで実証する。
論文 参考訳(メタデータ) (2023-01-16T15:57:03Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。