論文の概要: GneissWeb: Preparing High Quality Data for LLMs at Scale
- arxiv url: http://arxiv.org/abs/2502.14907v1
- Date: Wed, 19 Feb 2025 00:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:22.151242
- Title: GneissWeb: Preparing High Quality Data for LLMs at Scale
- Title(参考訳): GneissWeb: 大規模LLMのための高品質なデータ準備
- Authors: Hajar Emami Gohari, Swanand Ravindra Kadhe, Syed Yousaf Shah. Constantin Adam, Abdulhamid Adebayo, Praneet Adusumilli, Farhan Ahmed, Nathalie Baracaldo Angel, Santosh Borse, Yuan-Chi Chang, Xuan-Hong Dang, Nirmit Desai, Ravital Eres, Ran Iwamoto, Alexei Karve, Yan Koyfman, Wei-Han Lee, Changchang Liu, Boris Lublinsky, Takuyo Ohko, Pablo Pesce, Maroun Touma, Shiqiang Wang, Shalisha Witherspoon, Herbert Woisetschlager, David Wood, Kun-Lung Wu, Issei Yoshida, Syed Zawad, Petros Zerfos, Yi Zhou, Bishwaranjan Bhattacharjee,
- Abstract要約: GneissWebは10兆トークンの巨大なデータセットです。
GneissWebはデータ品質と量の間の良好なトレードオフを達成する。
我々は、GneissWebデータセットを使用してトレーニングされたモデルが、FineWeb-V1.1.0でトレーニングされたモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.596915267015797
- License:
- Abstract: Data quantity and quality play a vital role in determining the performance of Large Language Models (LLMs). High-quality data, in particular, can significantly boost the LLM's ability to generalize on a wide range of downstream tasks. Large pre-training datasets for leading LLMs remain inaccessible to the public, whereas many open datasets are small in size (less than 5 trillion tokens), limiting their suitability for training large models. In this paper, we introduce GneissWeb, a large dataset yielding around 10 trillion tokens that caters to the data quality and quantity requirements of training LLMs. Our GneissWeb recipe that produced the dataset consists of sharded exact sub-string deduplication and a judiciously constructed ensemble of quality filters. GneissWeb achieves a favorable trade-off between data quality and quantity, producing models that outperform models trained on state-of-the-art open large datasets (5+ trillion tokens). We show that models trained using GneissWeb dataset outperform those trained on FineWeb-V1.1.0 by 2.73 percentage points in terms of average score computed on a set of 11 commonly used benchmarks (both zero-shot and few-shot) for pre-training dataset evaluation. When the evaluation set is extended to 20 benchmarks (both zero-shot and few-shot), models trained using GneissWeb still achieve a 1.75 percentage points advantage over those trained on FineWeb-V1.1.0.
- Abstract(参考訳): データ量と品質は、大規模言語モデル(LLM)の性能を決定する上で重要な役割を担います。
特に、高品質なデータは、広範囲の下流タスクでLLMが一般化する能力を著しく向上させることができる。
LLMをリードする大規模な事前トレーニングデータセットは一般にはアクセスできないが、多くのオープンデータセットはサイズが小さい(5兆トークン未満)ため、大規模モデルのトレーニングには適していない。
本稿では,約10兆トークンを出力する大規模データセットであるGneissWebを紹介する。
このデータセットを作ったGneissWebのレシピは、厳密なサブストリングの重複と、質の高いフィルタの集合体で構成されています。
GneissWebは、データ品質と量の間の良好なトレードオフを実現し、最先端のオープンな大規模データセット(5兆以上のトークン)でトレーニングされたモデルよりも優れたモデルを生成する。
我々は、FineWeb-V1.1.0でトレーニングされたデータセットを用いてトレーニングされたモデルが、トレーニング前のデータセット評価によく使用される11のベンチマーク(ゼロショットと少数ショットの両方)で計算された平均スコアの点で、FineWeb-V1.1.0でトレーニングされたモデルよりも2.73ポイント優れていたことを示す。
評価セットが20のベンチマーク(ゼロショットと少数ショットの両方)に拡張された場合、GneissWebでトレーニングされたモデルは、FineWeb-V1.1.0でトレーニングされたモデルよりも1.75パーセントの利点がある。
関連論文リスト
- FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering [2.0140381995251713]
本稿では,LLMに基づくラインレベルのフィルタリング手法を導入し,トレーニングデータの品質を向上させる。
我々は、GPT-4o miniを使用して、FineWebから2万のドキュメントサンプルをラインレベルでラベル付けし、低品質の行に対して記述的なラベルを作成できるようにします。
フィルタリングの影響をテストするため、元のデータセットとフィルタリングデータセットの両方でGPT-2モデルをトレーニングする。
論文 参考訳(メタデータ) (2025-01-13T13:26:50Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale [30.955171096569618]
FineWebは96 Common Crawlスナップショットから派生した15トリリオンのトークンデータセットである。
FineWeb-Eduは、FineWebからフィルタリングされた教育用テキストの1.3トリリオントークンコレクションである。
論文 参考訳(メタデータ) (2024-06-25T13:50:56Z) - Zyda: A 1.3T Dataset for Open Language Modeling [10.973515151563427]
Zydaは1.3兆のトークンからなる寛容なライセンス下でのデータセットで、主要なオープンソースのデータセットを単一の高品質なコーパスに統合することによって組み立てられる。
我々の評価によると、ZydaはDolma、FinalWeb、RefinedWebといった他のオープンデータセットと競合するだけでなく、Pythiaスイートの同等モデルの性能を大幅に改善している。
論文 参考訳(メタデータ) (2024-06-04T05:47:17Z) - A synthetic data approach for domain generalization of NLI models [13.840374911669167]
自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。
合成された高品質データセットは、下流アプリケーションでゼロショット使用にNLIモデルを適用することができることを示す。
我々は、このデータに基づいてトレーニングされたモデルが、完全に下流のテスト設定に最適な一般化があることを示します。
論文 参考訳(メタデータ) (2024-02-19T18:55:16Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。