論文の概要: FP8-LM: Training FP8 Large Language Models
- arxiv url: http://arxiv.org/abs/2310.18313v1
- Date: Fri, 27 Oct 2023 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 12:45:10.883935
- Title: FP8-LM: Training FP8 Large Language Models
- Title(参考訳): FP8-LM: FP8大規模言語モデルのトレーニング
- Authors: Houwen Peng and Kan Wu and Yixuan Wei and Guoshuai Zhao and Yuxiang
Yang and Ze Liu and Yifan Xiong and Ziyue Yang and Bolin Ni and Jingcheng Hu
and Ruihang Li and Miaosen Zhang and Chen Li and Jia Ning and Ruizhe Wang and
Zheng Zhang and Shuguang Liu and Joe Chau and Han Hu and Peng Cheng
- Abstract要約: 大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニング中、我々のFP8混合精度トレーニングフレームワークは、実際のメモリ使用量の42%の大幅な削減を実現した。
我々のFP8混合精度訓練手法は汎用的であり、LLM命令チューニングや強化学習など他のタスクにもシームレスに適用できる。
- 参考スコア(独自算出の注目度): 47.17804713425323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore FP8 low-bit data formats for efficient training of
large language models (LLMs). Our key insight is that most variables, such as
gradients and optimizer states, in LLM training can employ low-precision data
formats without compromising model accuracy and requiring no changes to
hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision
framework for training LLMs. This framework offers three levels of FP8
utilization to streamline mixed-precision and distributed parallel training for
LLMs. It gradually incorporates 8-bit gradients, optimizer states, and
distributed learning in an incremental manner. Experiment results show that,
during the training of GPT-175B model on H100 GPU platform, our FP8
mixed-precision training framework not only achieved a remarkable 42% reduction
in real memory usage but also ran 64% faster than the widely adopted BF16
framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer
Engine by 17%. This largely reduces the training costs for large foundation
models. Furthermore, our FP8 mixed-precision training methodology is generic.
It can be seamlessly applied to other tasks such as LLM instruction tuning and
reinforcement learning with human feedback, offering savings in fine-tuning
expenses. Our FP8 low-precision training framework is open-sourced at
{https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の効率的な学習のためのFP8低ビットデータフォーマットについて検討する。
我々の重要な洞察は、LLMトレーニングにおける勾配やオプティマイザ状態のようなほとんどの変数は、モデル精度を損なうことなく、ハイパーパラメータを変更することなく、低精度のデータフォーマットを使用することができるということです。
具体的には,LLMの学習のためのFP8自動混合精度フレームワークを提案する。
このフレームワークは、3段階のFP8利用を提供し、LLMの混合精度と分散並列トレーニングを効率化する。
徐々に8ビットの勾配、最適化状態、分散学習を段階的に取り入れている。
H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて、我々のFP8混合精度トレーニングフレームワークは、実際のメモリ使用量の42%削減を達成しただけでなく、広く採用されているBF16フレームワーク(Megatron-LM)よりも64%高速で、Nvidia Transformer Engineの速度を17%上回った。
これにより、大規模な基礎モデルのトレーニングコストが大幅に削減される。
さらに、FP8混合精度訓練手法は汎用的である。
llm命令チューニングや人間フィードバックによる強化学習など、他のタスクにもシームレスに適用でき、微調整費用の節約が期待できる。
FP8の低精度トレーニングフレームワークは、https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}でオープンソース化されています。
関連論文リスト
- Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。
これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。
このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文 参考訳(メタデータ) (2024-11-10T15:19:42Z) - COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。
COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。
COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文 参考訳(メタデータ) (2024-10-25T05:59:30Z) - Scaling FP8 training to trillion-token LLMs [26.195547788434908]
最大2兆トークンのデータセット上でFP8精度を使用して、大規模な言語モデルをトレーニングします。
我々は,FP8トレーニングにおいて,より短い期間で観察できない重大な障害を発見した。
Smooth-SwiGLUは機能変更なしに安定したFP8トレーニングを実現する新しい修正である。
論文 参考訳(メタデータ) (2024-09-19T07:15:58Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Towards Federated Learning with On-device Training and Communication in 8-bit Floating Point [13.693064349530795]
近年の研究では、8ビット浮動小数点(FP8)がニューラルネットワークの効率的なトレーニングに利用できることが示されている。
グローバルなFP32サーバモデルを維持しながらFP8クライアントトレーニングを組み合わせる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T18:55:58Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - To FP8 and Back Again: Quantifying the Effects of Reducing Precision on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。
自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:42:23Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。