論文の概要: When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale
- arxiv url: http://arxiv.org/abs/2309.04564v1
- Date: Fri, 8 Sep 2023 19:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:36:15.034890
- Title: When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale
- Title(参考訳): より少ない場合:大規模LLMの事前学習のためのデータプルーニングの調査
- Authors: Max Marion, Ahmet \"Ust\"un, Luiza Pozzobon, Alex Wang, Marzieh
Fadaee, Sara Hooker
- Abstract要約: 大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
- 参考スコア(独自算出の注目度): 12.94829977468838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large volumes of text data have contributed significantly to the development
of large language models (LLMs) in recent years. This data is typically
acquired by scraping the internet, leading to pretraining datasets comprised of
noisy web text. To date, efforts to prune these datasets down to a higher
quality subset have relied on hand-crafted heuristics encoded as rule-based
filters. In this work, we take a wider view and explore scalable estimates of
data quality that can be used to systematically measure the quality of
pretraining data. We perform a rigorous comparison at scale of the simple data
quality estimator of perplexity, as well as more sophisticated and
computationally intensive estimates of the Error L2-Norm and memorization.
These metrics are used to rank and prune pretraining corpora, and we
subsequently compare LLMs trained on these pruned datasets. Surprisingly, we
find that the simple technique of perplexity outperforms our more
computationally expensive scoring methods. We improve over our no-pruning
baseline while training on as little as 30% of the original training dataset.
Our work sets the foundation for unexplored strategies in automatically
curating high quality corpora and suggests the majority of pretraining data can
be removed while retaining performance.
- Abstract(参考訳): 近年、大量のテキストデータが大規模言語モデル(llm)の開発に大きく貢献している。
このデータは通常、インターネットをスクラップして取得され、ノイズの多いWebテキストからなるデータセットを事前訓練する。
これまで、これらのデータセットを高品質なサブセットにプルダウンする努力は、ルールベースのフィルタとしてコード化された手作りのヒューリスティックに依存している。
本研究では,事前学習データの品質を体系的に測定できるスケーラブルなデータ品質推定手法について,より広い視点で検討する。
また,誤りl2ノルムと記憶の計算集約的な推定を行うとともに,単純なデータ品質推定器であるパープレキシティのスケールで厳密な比較を行った。
これらのメトリクスは、事前学習コーパスのランク付けとプルークーンに使われ、その後、これらのプルーニングデータセットで訓練されたLCMと比較する。
驚くべきことに、パープレキシティのシンプルなテクニックは、計算コストの高いスコアリング方法よりも優れています。
トレーニングデータセットの30%をトレーニングしながら、プライミングなしのベースラインよりも改善しています。
我々の研究は、高品質コーパスを自動キュレートする未探索戦略の基礎を定めており、性能を維持しながら事前学習データの大半を除去することができることを示唆している。
関連論文リスト
- Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
8つのベンチマークで1億6000万のパラメータスケールで事前トレーニングを行う場合,提案手法は各ベンチマークにおいてDSIRよりも優れる。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Downstream Datasets Make Surprisingly Good Pretraining Corpora [39.77171117174906]
本稿では,事前学習と微調整の両方に同じ(下流)トレーニングデータを用いる,自己事前学習に関する大規模研究を紹介する。
ELECTRAモデルとRoBERTaモデルと10の異なる下流分類データセットに対処する実験では,BookWikiコーパスで事前学習を行う自己学習のライバルが標準であることがわかった。
以上の結果から, 事前学習に起因する性能向上は, 主に事前学習対象自体が引き起こすものであり, 外部事前学習データの大量使用に起因しているとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-09-28T19:28:43Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。