論文の概要: FP8-LM: Training FP8 Large Language Models
- arxiv url: http://arxiv.org/abs/2310.18313v2
- Date: Tue, 19 Dec 2023 12:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:25:39.831490
- Title: FP8-LM: Training FP8 Large Language Models
- Title(参考訳): FP8-LM: FP8大規模言語モデルのトレーニング
- Authors: Houwen Peng and Kan Wu and Yixuan Wei and Guoshuai Zhao and Yuxiang
Yang and Ze Liu and Yifan Xiong and Ziyue Yang and Bolin Ni and Jingcheng Hu
and Ruihang Li and Miaosen Zhang and Chen Li and Jia Ning and Ruizhe Wang and
Zheng Zhang and Shuguang Liu and Joe Chau and Han Hu and Peng Cheng
- Abstract要約: 本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
- 参考スコア(独自算出の注目度): 47.17804713425323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore FP8 low-bit data formats for efficient training of
large language models (LLMs). Our key insight is that most variables, such as
gradients and optimizer states, in LLM training can employ low-precision data
formats without compromising model accuracy and requiring no changes to
hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision
framework for training LLMs. This framework offers three levels of FP8
utilization to streamline mixed-precision and distributed parallel training for
LLMs. It gradually incorporates 8-bit gradients, optimizer states, and
distributed learning in an incremental manner. Experiment results show that,
during the training of GPT-175B model on H100 GPU platform, our FP8
mixed-precision training framework not only achieved a remarkable 39% reduction
in real memory usage but also ran 75% faster than the widely adopted BF16
framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer
Engine by 37%. This largely reduces the training costs for large foundation
models. Furthermore, our FP8 mixed-precision training methodology is generic.
It can be seamlessly applied to other tasks such as LLM instruction tuning and
reinforcement learning with human feedback, offering savings in fine-tuning
expenses. Our FP8 low-precision training framework is open-sourced at
{https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の効率的な学習のためのFP8低ビットデータフォーマットについて検討する。
我々の重要な洞察は、LLMトレーニングにおける勾配やオプティマイザ状態のようなほとんどの変数は、モデル精度を損なうことなく、ハイパーパラメータを変更することなく、低精度のデータフォーマットを使用することができるということです。
具体的には,LLMの学習のためのFP8自動混合精度フレームワークを提案する。
このフレームワークは、3段階のFP8利用を提供し、LLMの混合精度と分散並列トレーニングを効率化する。
徐々に8ビットの勾配、最適化状態、分散学習を段階的に取り入れている。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減を達成しただけでなく,広く採用されているBF16フレームワーク(Megatron-LM)よりも75%高速に動作し,Nvidia Transformer Engineの速度を37%超えた。
これにより、大規模な基礎モデルのトレーニングコストが大幅に削減される。
さらに、FP8混合精度訓練手法は汎用的である。
llm命令チューニングや人間フィードバックによる強化学習など、他のタスクにもシームレスに適用でき、微調整費用の節約が期待できる。
FP8の低精度トレーニングフレームワークは、https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}でオープンソース化されています。
関連論文リスト
- GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.19973370560533]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - FP8-BERT: Post-Training Quantization for Transformer [20.51143486483669]
BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。
新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。
我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
論文 参考訳(メタデータ) (2023-12-10T02:14:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Training and inference of large language models using 8-bit floating
point [3.689110902209004]
本稿では,重み,勾配,アクティベーションを動的に更新し,FP8線形層のスケーリングを選択する手法を提案する。
本稿では,111Mから70Bまでのモデルサイズに対して,FP8を用いたGPTとLlama 2の言語モデルの訓練と検証を行う。
論文 参考訳(メタデータ) (2023-09-29T13:24:33Z) - Unit Scaling: Out-of-the-Box Low-Precision Training [1.7188280334580197]
単位スケーリングは、低精度の数値形式の使用を単純化するディープラーニングモデルを設計するためのパラダイムである。
FP16や最近提案されたFP8フォーマットでのトレーニングは、大幅な効率向上をもたらすが、アウト・オブ・ザ・ボックスのトレーニングには十分な範囲を欠く可能性がある。
単位スケーリングは、全てのウェイト、アクティベーション、および初期化時の勾配の単位分散を求める、数値をモデル化するための原則化されたアプローチを導入することで、この問題に対処する。
論文 参考訳(メタデータ) (2023-03-20T16:42:25Z) - BMPQ: Bit-Gradient Sensitivity Driven Mixed-Precision Quantization of
DNNs from Scratch [11.32458063021286]
本稿では、ビット勾配を用いて層感度を分析し、混合精度の量子化モデルを生成する学習手法であるBMPQを提案する。
トレーニングを1回行う必要があるが、トレーニング済みのベースラインは必要ない。
ベースラインのFP-32モデルと比較して、BMPQは15.4倍少ないパラメータビットを持つモデルの精度は無視できる。
論文 参考訳(メタデータ) (2021-12-24T03:16:58Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。