Fugu-MT 論文翻訳(概要): AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs

論文の概要: AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs

arxiv url: http://arxiv.org/abs/2407.20177v1
Date: Mon, 29 Jul 2024 17:06:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 12:55:07.188176
Title: AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs
Title（参考訳）: AutoScale:LLMのトレーニングのための計算最適データ構成の自動予測
Authors: Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia,
Abstract要約: 固定的な計算予算の最適データ構成は、トレーニングデータの規模によって異なることを示す。我々は,任意の目標スケールでのトレーニングに最適なデータ構成を自動生成するツールである *AutoScale* を提案する。
参考スコア（独自算出の注目度）: 61.13296177652599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To ensure performance on a diverse set of downstream tasks, LLMs are pretrained via data mixtures over different domains. In this work, we demonstrate that the optimal data composition for a fixed compute budget varies depending on the scale of the training data, suggesting that the common practice of empirically determining an optimal composition using small-scale experiments will not yield the optimal data mixtures when scaling up to the final model. To address this challenge, we propose *AutoScale*, an automated tool that finds a compute-optimal data composition for training at any desired target scale. AutoScale first determines the optimal composition at a small scale using a novel bilevel optimization framework, Direct Data Optimization (*DDO*), and then fits a predictor to estimate the optimal composition at larger scales. The predictor's design is inspired by our theoretical analysis of scaling laws related to data composition, which could be of independent interest. In empirical studies with pre-training 774M Decoder-only LMs (GPT-2 Large) on RedPajama dataset, AutoScale decreases validation perplexity at least 25% faster than any baseline with up to 38% speed up compared to without reweighting, achieving the best overall performance across downstream tasks. On pre-training Encoder-only LMs (BERT) with masked language modeling, DDO is shown to decrease loss on all domains while visibly improving average task performance on GLUE benchmark by 8.7% and on large-scale QA dataset (SQuAD) by 5.9% compared with without reweighting. AutoScale speeds up training by up to 28%. Our codes are open-sourced.
Abstract（参考訳）: ダウンストリームタスクの多様なセットのパフォーマンスを保証するため、LLMは異なるドメイン上のデータミキシングを介して事前トレーニングされる。本研究は, 定型計算予算の最適データ構成がトレーニングデータの規模によって異なることを実証し, 小規模実験による最適データ合成を実証的に決定する一般的な手法は, 最終モデルにスケールアップする際の最適データ混合を生じさせないことを示唆する。この課題に対処するために、任意の目標規模でトレーニングするための計算最適データ構成を見つける自動化ツールである *AutoScale* を提案する。 AutoScaleはまず、新しい双方向最適化フレームワークであるダイレクトデータ最適化(*DDO*)を使用して、小規模で最適な構成を判断し、次に予測器に適合して、より大規模な最適構成を推定する。予測器の設計は、データ構成に関連するスケーリング法則の理論的解析から着想を得たものである。 774MデコーダのみのLM(GPT-2 Large)をRedPajamaデータセット上で事前トレーニングした経験的研究では、AutoScaleは、ダウンストリームタスク全体で最高の全体的なパフォーマンスを達成するために、リウェイトなしで最大38%の速度で、任意のベースラインよりも少なくとも25%高速なバリデーションパープレクシリティを減少させる。マスク付き言語モデリングを用いた事前トレーニング用Encoder-only LM(BERT)では、GLUEベンチマークの平均タスク性能を8.7%、大規模QAデータセット(SQuAD)では5.9%改善し、すべてのドメインにおける損失を減少させることが示された。 AutoScaleはトレーニングを最大28%高速化する。私たちのコードはオープンソースです。

関連論文リスト

Scaling Laws of Motion Forecasting and Planning -- A Technical Report [23.340801154900387]
本研究では,エンコーダ・デコーダ・オートレグレッシブ・トランスモデルの実証スケーリング法則について検討する。モデルトレーニング損失とモデル評価指標との間には,強い相関関係がみられた。我々は,エゴエージェントの性能向上のために,他のエージェントの一般的なログ化された運転データに対するトレーニングの有用性を短時間で検討した。
論文参考訳（メタデータ） (2025-06-09T20:54:23Z)
Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。 DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文参考訳（メタデータ） (2025-03-12T20:04:38Z)
LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文参考訳（メタデータ） (2025-02-17T18:45:25Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
Optimizing importance weighting in the presence of sub-population shifts [0.0]
トレーニングデータとテストデータの間の分散シフトは、機械学習モデルの性能を著しく損なう可能性がある。トレーニングデータの有限標本サイズによる推定モデルのばらつきの増大を無視するため,既存の重み付けは準最適であると主張する。重みとモデルパラメータを同時に最適化する二段階最適化手法を提案する。
論文参考訳（メタデータ） (2024-10-18T09:21:10Z)
Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models [43.26028399395612]
本稿では,2つの新しい手法を用いたフィッシャー情報に基づく効率的なカリキュラムフェデレート学習フレームワーク(FibecFed)を提案する。まず,各装置内のデータを適応的にサンプリングし,FL微調整プロセスの有効性を向上させるための漁師情報に基づく手法を提案する。第2に,グローバルアグリゲーションのための適切なレイヤとLoRAによるローカル更新のためのスパースパラメータを動的に選択する。
論文参考訳（メタデータ） (2024-09-30T18:12:18Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文参考訳（メタデータ） (2023-09-15T16:29:27Z)
D4: Improving LLM Pretraining via Document De-Duplication and Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文参考訳（メタデータ） (2023-08-23T17:58:14Z)
SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文参考訳（メタデータ） (2023-03-18T17:56:01Z)
Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ） (2021-11-24T06:18:32Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。