論文の概要: DataMan: Data Manager for Pre-training Large Language Models
- arxiv url: http://arxiv.org/abs/2502.19363v2
- Date: Thu, 13 Mar 2025 15:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 19:21:28.641440
- Title: DataMan: Data Manager for Pre-training Large Language Models
- Title(参考訳): DataMan: 大規模言語モデルの事前トレーニングのためのデータマネージャ
- Authors: Ru Peng, Kexin Yang, Yawen Zeng, Junyang Lin, Dayiheng Liu, Junbo Zhao,
- Abstract要約: 既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。
テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。
実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 39.677609311769146
- License:
- Abstract: The performance emergence of large language models (LLMs) driven by data scaling laws makes the selection of pre-training data increasingly important. However, existing methods rely on limited heuristics and human intuition, lacking comprehensive and clear guidelines. To address this, we are inspired by ``reverse thinking'' -- prompting LLMs to self-identify which criteria benefit its performance. As its pre-training capabilities are related to perplexity (PPL), we derive 14 quality criteria from the causes of text perplexity anomalies and introduce 15 common application domains to support domain mixing. In this paper, we train a Data Manager (DataMan) to learn quality ratings and domain recognition from pointwise rating, and use it to annotate a 447B token pre-training corpus with 14 quality ratings and domain type. Our experiments validate our approach, using DataMan to select 30B tokens to train a 1.3B-parameter language model, demonstrating significant improvements in in-context learning (ICL), perplexity, and instruction-following ability over the state-of-the-art baseline. The best-performing model, based on the Overall Score l=5 surpasses a model trained with 50% more data using uniform sampling. We continue pre-training with high-rated, domain-specific data annotated by DataMan to enhance domain-specific ICL performance and thus verify DataMan's domain mixing ability. Our findings emphasize the importance of quality ranking, the complementary nature of quality criteria, and their low correlation with perplexity, analyzing misalignment between PPL and ICL performance. We also thoroughly analyzed our pre-training dataset, examining its composition, the distribution of quality ratings, and the original document sources.
- Abstract(参考訳): データスケーリング法則によって駆動される大規模言語モデル(LLM)のパフォーマンスの出現により、事前学習データの選択がますます重要になる。
しかし、既存の手法は限定的なヒューリスティックと人間の直観に依存しており、包括的で明確なガイドラインが欠如している。
これを解決するために、私たちは‘リバース・シンキング’にインスパイアされ、LCMがそのパフォーマンスに役立つ基準を自己識別するように促します。
プレトレーニング能力はパープレキシティ(PPL)に関連しているため、テキストパープレキシティ異常の原因から14の品質基準を導き、ドメインミキシングをサポートするために15の共通アプリケーションドメインを導入する。
本稿では,データマネージャ(DataMan)を用いて,ポイントワイドレーティングから品質評価とドメイン認識を学習し,14の品質レーティングとドメインタイプを備えた447Bトークン事前学習コーパスに注釈をつける。
実験では,DataManを用いて1.3Bパラメータ言語モデルのトレーニングに30Bトークンを選択し,テキスト内学習(ICL)やパープレキシティ,命令追従能力の大幅な向上を実証した。
総合スコア l=5 に基づく最高の性能モデルは、一様サンプリングを用いて50%以上のデータで訓練されたモデルを上回る。
我々は、DataManによって注釈付けされた高評価のドメイン固有データで事前トレーニングを継続し、ドメイン固有のICL性能を高め、DataManのドメイン混合能力を検証します。
本研究は, 品質評価の重要性, 品質基準の相補性, 難易度との相関が低いことに着目し, PPLとICLのパフォーマンスの相違を解析した。
また,事前学習データセットを網羅的に分析し,その構成,品質評価の分布,原資料資料について検討した。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。