論文の概要: Scaling Laws for Precision
- arxiv url: http://arxiv.org/abs/2411.04330v1
- Date: Thu, 07 Nov 2024 00:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:05.706290
- Title: Scaling Laws for Precision
- Title(参考訳): 精密化のためのスケーリング法則
- Authors: Tanishq Kumar, Zachary Ankner, Benjamin F. Spector, Blake Bordelon, Niklas Muennighoff, Mansheej Paul, Cengiz Pehlevan, Christopher Ré, Aditi Raghunathan,
- Abstract要約: トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
- 参考スコア(独自算出の注目度): 73.24325358259753
- License:
- Abstract: Low precision training and inference affect both the quality and cost of language models, but current scaling laws do not account for this. In this work, we devise "precision-aware" scaling laws for both training and inference. We propose that training in lower precision reduces the model's "effective parameter count," allowing us to predict the additional loss incurred from training in low precision and post-train quantization. For inference, we find that the degradation introduced by post-training quantization increases as models are trained on more data, eventually making additional pretraining data actively harmful. For training, our scaling laws allow us to predict the loss of a model with different parts in different precisions, and suggest that training larger models in lower precision may be compute optimal. We unify the scaling laws for post and pretraining quantization to arrive at a single functional form that predicts degradation from training and inference in varied precisions. We fit on over 465 pretraining runs and validate our predictions on model sizes up to 1.7B parameters trained on up to 26B tokens.
- Abstract(参考訳): 低い精度のトレーニングと推論は、言語モデルの品質とコストの両方に影響を与えるが、現在のスケーリング法則はこのことを考慮していない。
本研究では,トレーニングと推論の両面において,「精度に配慮した」スケーリング法則を考案する。
低精度でのトレーニングはモデルの「効果的なパラメータカウント」を減らし、低精度でのトレーニングやポストトレイン量子化による損失を予測できるようにする。
推測では、モデルがより多くのデータに基づいて訓練されるにつれて、後学習量子化によって引き起こされる劣化が増加し、最終的に追加の事前学習データが有害になる。
スケーリング法則により,異なる精度の異なるモデルの損失を予測することができ,より精度の低いモデルのトレーニングが最適である可能性が示唆された。
我々は、ポストおよびプレトレーニング量子化のスケーリング法則を統一し、様々な精度でトレーニングと推論の劣化を予測する単一の機能形式に到達する。
465以上の事前トレーニング実行に適合し、最大26Bトークンでトレーニングされた1.7Bパラメータまでのモデルサイズに関する予測を検証します。
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Unraveling the Mystery of Scaling Laws: Part I [39.967120253159614]
法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
OpenAIのオリジナルのスケーリング法論文は、正確なスケーリング法則を導出するのに必要な詳細を公表していない。
1M60Mのパラメータしか持たないモデルでトレーニングすることで、スケーリング法則式における全ての定数項をステップバイステップで推定する。
論文 参考訳(メタデータ) (2024-03-11T10:05:29Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Scaling of Class-wise Training Losses for Post-hoc Calibration [6.0632746602205865]
そこで本研究では,クラスレベルの学習損失を同期させるキャリブレーション手法を提案する。
複数のクラスワイドスケーリング因子を用いて、クラスワイドトレーニング損失の分散を軽減するために、新しいトレーニング損失を設計する。
種々のポストホックキャリブレーション手法を用いて,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-06-19T14:59:37Z) - Adaptive Low-Precision Training for Embeddings in Click-Through Rate
Prediction [36.605153166169224]
埋め込みテーブルは通常、クリックスルーレート(CTR)予測モデルにおいて巨大である。
我々は,低精度トレーニング(low-precision training)と呼ばれる,新しい量子化トレーニングパラダイムを定式化して,埋め込みをトレーニング段階から圧縮する。
CTRモデルでは,予測精度を犠牲にすることなく8ビット埋め込みのトレーニングに成功した。
論文 参考訳(メタデータ) (2022-12-12T07:19:14Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。