論文の概要: AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs
- arxiv url: http://arxiv.org/abs/2407.20177v2
- Date: Sun, 13 Oct 2024 01:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:06:04.589230
- Title: AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs
- Title(参考訳): AutoScale:LLMのトレーニングのための計算最適データ構成の自動予測
- Authors: Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia,
- Abstract要約: 本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
- 参考スコア(独自算出の注目度): 61.13296177652599
- License:
- Abstract: Domain reweighting is an emerging research area aimed at adjusting the relative weights of different data sources to improve the effectiveness and efficiency of language model pre-training. This paper demonstrates that the optimal composition of training data from different domains is scale-dependent, challenging the existing practice of determining optimal mixtures through small-scale experiments and directly applying them at larger scales. We derive an analytical model for the dependence of optimal weights on data scale and introduce *AutoScale*, a novel, practical approach for optimizing data compositions at potentially large training data scales. *AutoScale* first uses a principled optimization framework to find optimal compositions at smaller, feasible scales, then predicts optimal compositions at larger scales using our derived model. Our evaluation on GPT-2 Large and BERT pre-training demonstrates *AutoScale*'s effectiveness in improving training convergence and downstream performance. Particularly, for GPT-2 Large on RedPajama, *AutoScale* decreases validation perplexity 28% faster than baselines, with up to 38% speed-up over unweighted training, achieving the best performance across downstream tasks. This work provides insights into the varying benefits of data sources across training scales for language models, contributing to the burgeoning research on scale-dependent data curation. Code is open-sourced.
- Abstract(参考訳): ドメイン再重み付け(Domain reweighting)は、異なるデータソースの相対重み付けを調整し、言語モデル事前学習の有効性と効率を改善することを目的とした、新たな研究分野である。
本稿では, 異なる領域からの学習データの最適構成がスケール依存であることを示し, 小規模実験により最適混合を判定し, 大規模で直接適用するという既存の実践に挑戦する。
データスケールに最適な重みを依存させる分析モデルを提案し、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための新しい実践的アプローチである *AutoScale* を導入する。
*AutoScale* はまず,より小さく,実現可能なスケールで最適な構成を求めるために,原理化された最適化フレームワークを使用し,得られたモデルを用いて大規模で最適な構成を予測する。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
特に、RedPajama上のGPT-2 Largeでは、*AutoScale*は、ベースラインよりも28%高速で、未処理のトレーニングよりも最大38%スピードアップし、ダウンストリームタスク全体で最高のパフォーマンスを実現している。
この研究は、言語モデルのトレーニングスケールにまたがるさまざまなデータソースのメリットに関する洞察を提供し、スケール依存のデータキュレーションに関する急成長する研究に寄与する。
コードはオープンソースである。
関連論文リスト
- Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文 参考訳(メタデータ) (2024-07-18T21:36:00Z) - Does your data spark joy? Performance gains from domain upsampling at the end of training [16.572129046599937]
大規模なFLモデルスケールでのトレーニングにおけるドメイン固有のデータセットの影響を理解することは、費用がかかる。
ドメインアップサンプリングを使用して、さまざまなベンチマークを改善するために、個々のデータセットの有用性を大規模に特徴付ける。
このツールは、さまざまな事前トレーニングデータセットの影響を大規模に実験する機能を開放するが、完全な事前トレーニング実行に比べてコストが低い。
論文 参考訳(メタデータ) (2024-06-05T17:29:15Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Predicting Software Performance with Divide-and-Learn [3.635696352780227]
本稿では,DALと呼ばれる「分枝学習」の概念に基づくアプローチを提案する。
実世界の8つのシステムと5つのトレーニングデータによる実験結果から、DaLは40件中33件で最高のシステムよりもパフォーマンスが劣っていることが判明した。
論文 参考訳(メタデータ) (2023-06-11T11:16:27Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - SASL: Saliency-Adaptive Sparsity Learning for Neural Network
Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。
ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文 参考訳(メタデータ) (2020-03-12T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。