論文の概要: AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs
- arxiv url: http://arxiv.org/abs/2407.20177v1
- Date: Mon, 29 Jul 2024 17:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:55:07.188176
- Title: AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs
- Title(参考訳): AutoScale:LLMのトレーニングのための計算最適データ構成の自動予測
- Authors: Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia,
- Abstract要約: 固定的な計算予算の最適データ構成は、トレーニングデータの規模によって異なることを示す。
我々は,任意の目標スケールでのトレーニングに最適なデータ構成を自動生成するツールである *AutoScale* を提案する。
- 参考スコア(独自算出の注目度): 61.13296177652599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To ensure performance on a diverse set of downstream tasks, LLMs are pretrained via data mixtures over different domains. In this work, we demonstrate that the optimal data composition for a fixed compute budget varies depending on the scale of the training data, suggesting that the common practice of empirically determining an optimal composition using small-scale experiments will not yield the optimal data mixtures when scaling up to the final model. To address this challenge, we propose *AutoScale*, an automated tool that finds a compute-optimal data composition for training at any desired target scale. AutoScale first determines the optimal composition at a small scale using a novel bilevel optimization framework, Direct Data Optimization (*DDO*), and then fits a predictor to estimate the optimal composition at larger scales. The predictor's design is inspired by our theoretical analysis of scaling laws related to data composition, which could be of independent interest. In empirical studies with pre-training 774M Decoder-only LMs (GPT-2 Large) on RedPajama dataset, AutoScale decreases validation perplexity at least 25% faster than any baseline with up to 38% speed up compared to without reweighting, achieving the best overall performance across downstream tasks. On pre-training Encoder-only LMs (BERT) with masked language modeling, DDO is shown to decrease loss on all domains while visibly improving average task performance on GLUE benchmark by 8.7% and on large-scale QA dataset (SQuAD) by 5.9% compared with without reweighting. AutoScale speeds up training by up to 28%. Our codes are open-sourced.
- Abstract(参考訳): ダウンストリームタスクの多様なセットのパフォーマンスを保証するため、LLMは異なるドメイン上のデータミキシングを介して事前トレーニングされる。
本研究は, 定型計算予算の最適データ構成がトレーニングデータの規模によって異なることを実証し, 小規模実験による最適データ合成を実証的に決定する一般的な手法は, 最終モデルにスケールアップする際の最適データ混合を生じさせないことを示唆する。
この課題に対処するために、任意の目標規模でトレーニングするための計算最適データ構成を見つける自動化ツールである *AutoScale* を提案する。
AutoScaleはまず、新しい双方向最適化フレームワークであるダイレクトデータ最適化(*DDO*)を使用して、小規模で最適な構成を判断し、次に予測器に適合して、より大規模な最適構成を推定する。
予測器の設計は、データ構成に関連するスケーリング法則の理論的解析から着想を得たものである。
774MデコーダのみのLM(GPT-2 Large)をRedPajamaデータセット上で事前トレーニングした経験的研究では、AutoScaleは、ダウンストリームタスク全体で最高の全体的なパフォーマンスを達成するために、リウェイトなしで最大38%の速度で、任意のベースラインよりも少なくとも25%高速なバリデーションパープレクシリティを減少させる。
マスク付き言語モデリングを用いた事前トレーニング用Encoder-only LM(BERT)では、GLUEベンチマークの平均タスク性能を8.7%、大規模QAデータセット(SQuAD)では5.9%改善し、すべてのドメインにおける損失を減少させることが示された。
AutoScaleはトレーニングを最大28%高速化する。
私たちのコードはオープンソースです。
関連論文リスト
- Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文 参考訳(メタデータ) (2024-07-18T21:36:00Z) - Does your data spark joy? Performance gains from domain upsampling at the end of training [16.572129046599937]
大規模なFLモデルスケールでのトレーニングにおけるドメイン固有のデータセットの影響を理解することは、費用がかかる。
ドメインアップサンプリングを使用して、さまざまなベンチマークを改善するために、個々のデータセットの有用性を大規模に特徴付ける。
このツールは、さまざまな事前トレーニングデータセットの影響を大規模に実験する機能を開放するが、完全な事前トレーニング実行に比べてコストが低い。
論文 参考訳(メタデータ) (2024-06-05T17:29:15Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Predicting Software Performance with Divide-and-Learn [3.635696352780227]
本稿では,DALと呼ばれる「分枝学習」の概念に基づくアプローチを提案する。
実世界の8つのシステムと5つのトレーニングデータによる実験結果から、DaLは40件中33件で最高のシステムよりもパフォーマンスが劣っていることが判明した。
論文 参考訳(メタデータ) (2023-06-11T11:16:27Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - SASL: Saliency-Adaptive Sparsity Learning for Neural Network
Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。
ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文 参考訳(メタデータ) (2020-03-12T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。