論文の概要: To FP8 and Back Again: Quantifying the Effects of Reducing Precision on LLM Training Stability
- arxiv url: http://arxiv.org/abs/2405.18710v1
- Date: Wed, 29 May 2024 02:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:04:06.787852
- Title: To FP8 and Back Again: Quantifying the Effects of Reducing Precision on LLM Training Stability
- Title(参考訳): FP8とリターン:LLMトレーニングの安定性に及ぼす高精度化の効果の定量化
- Authors: Joonhyung Lee, Jeongin Bae, Byeongwook Kim, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。
自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
- 参考スコア(独自算出の注目度): 7.115739465137031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The massive computational costs associated with large language model (LLM) pretraining have spurred great interest in reduced-precision floating-point representations to accelerate the process. As a result, the BrainFloat16 (BF16) precision has become the de facto standard for LLM training, with hardware support included in recent accelerators. This trend has gone even further in the latest processors, where FP8 has recently been introduced. However, prior experience with FP16, which was found to be less stable than BF16, raises concerns as to whether FP8, with even fewer bits than FP16, can be a cost-effective option for LLM training. We argue that reduced-precision training schemes must have similar training stability and hyperparameter sensitivities to their higher-precision counterparts in order to be cost-effective. However, we find that currently available methods for FP8 training are not robust enough to allow their use as economical replacements. This prompts us to investigate the stability of reduced-precision LLM training in terms of robustness across random seeds and learning rates. To this end, we propose new evaluation techniques and a new metric for quantifying loss landscape sharpness in autoregressive language models. By simulating incremental bit reductions in floating-point representations, we analyze the relationship between representational power and training stability with the intent of aiding future research into the field.
- Abstract(参考訳): 大規模言語モデル(LLM)事前学習に伴う膨大な計算コストは、プロセスの高速化のために、精度の低い浮動小数点表現に大きな関心を惹き付けている。
その結果、BrainFloat16(BF16)の精度は、近年のアクセラレーターにハードウェアサポートが組み込まれているLCMトレーニングのデファクトスタンダードとなった。
FP8が最近導入された最新のプロセッサでは、この傾向はさらに進んでいる。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がFP16よりも少ないビットでも、LCMトレーニングに費用対効果があるかどうかという懸念を提起している。
我々は、コスト効率を高めるために、高精度トレーニングスキームは、高精度トレーニングスキームと同等のトレーニング安定性とハイパーパラメータ感度を持つ必要があると論じる。
しかし、現在利用可能なFP8訓練方法は、経済的代替品としての使用を可能にするには不十分であることがわかった。
これにより、ランダムシード間の堅牢性や学習率の観点から、低精度LDMトレーニングの安定性を検討することができる。
そこで本研究では,自動回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と指標を提案する。
浮動小数点表現におけるインクリメンタルビット削減をシミュレートすることにより,表現力とトレーニング安定性の関係を解析し,今後の研究を支援する。
関連論文リスト
- Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。
これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。
このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文 参考訳(メタデータ) (2024-11-10T15:19:42Z) - COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。
COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。
COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文 参考訳(メタデータ) (2024-10-25T05:59:30Z) - Scaling FP8 training to trillion-token LLMs [26.195547788434908]
最大2兆トークンのデータセット上でFP8精度を使用して、大規模な言語モデルをトレーニングします。
我々は,FP8トレーニングにおいて,より短い期間で観察できない重大な障害を発見した。
Smooth-SwiGLUは機能変更なしに安定したFP8トレーニングを実現する新しい修正である。
論文 参考訳(メタデータ) (2024-09-19T07:15:58Z) - Towards Federated Learning with On-device Training and Communication in 8-bit Floating Point [13.693064349530795]
近年の研究では、8ビット浮動小数点(FP8)がニューラルネットワークの効率的なトレーニングに利用できることが示されている。
グローバルなFP32サーバモデルを維持しながらFP8クライアントトレーニングを組み合わせる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T18:55:58Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference [63.52244442498831]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。
Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13~25%の高速化を実現した。
安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1~8回発生することを発見した。
論文 参考訳(メタデータ) (2023-04-25T17:38:18Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。