Fugu-MT 論文翻訳(概要): FP8-LM: Training FP8 Large Language Models

論文の概要: FP8-LM: Training FP8 Large Language Models

arxiv url: http://arxiv.org/abs/2310.18313v1
Date: Fri, 27 Oct 2023 17:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 12:45:10.883935
Title: FP8-LM: Training FP8 Large Language Models
Title（参考訳）: FP8-LM: FP8大規模言語モデルのトレーニング
Authors: Houwen Peng and Kan Wu and Yixuan Wei and Guoshuai Zhao and Yuxiang Yang and Ze Liu and Yifan Xiong and Ziyue Yang and Bolin Ni and Jingcheng Hu and Ruihang Li and Miaosen Zhang and Chen Li and Jia Ning and Ruizhe Wang and Zheng Zhang and Shuguang Liu and Joe Chau and Han Hu and Peng Cheng
Abstract要約: 大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。 H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニング中、我々のFP8混合精度トレーニングフレームワークは、実際のメモリ使用量の42%の大幅な削減を実現した。我々のFP8混合精度訓練手法は汎用的であり、LLM命令チューニングや強化学習など他のタスクにもシームレスに適用できる。
参考スコア（独自算出の注目度）: 47.17804713425323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の効率的な学習のためのFP8低ビットデータフォーマットについて検討する。我々の重要な洞察は、LLMトレーニングにおける勾配やオプティマイザ状態のようなほとんどの変数は、モデル精度を損なうことなく、ハイパーパラメータを変更することなく、低精度のデータフォーマットを使用することができるということです。具体的には,LLMの学習のためのFP8自動混合精度フレームワークを提案する。このフレームワークは、3段階のFP8利用を提供し、LLMの混合精度と分散並列トレーニングを効率化する。徐々に8ビットの勾配、最適化状態、分散学習を段階的に取り入れている。 H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて、我々のFP8混合精度トレーニングフレームワークは、実際のメモリ使用量の42%削減を達成しただけでなく、広く採用されているBF16フレームワーク(Megatron-LM)よりも64%高速で、Nvidia Transformer Engineの速度を17%上回った。これにより、大規模な基礎モデルのトレーニングコストが大幅に削減される。さらに、FP8混合精度訓練手法は汎用的である。 llm命令チューニングや人間フィードバックによる強化学習など、他のタスクにもシームレスに適用でき、微調整費用の節約が期待できる。 FP8の低精度トレーニングフレームワークは、https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}でオープンソース化されています。

関連論文リスト

Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文参考訳（メタデータ） (2025-05-26T21:04:14Z)
$μ$nit Scaling: Simple and Scalable FP8 LLM Training [6.447975505471247]
8ビット浮動小数点(FP8)フォーマットによる大規模言語モデルトレーニングでは、大幅な効率向上が期待できるが、数値的な精度の低下はトレーニングを困難にしている。モデルのサイズが大きければ、動的スケーリングファクタを必要としない、シンプルでスケーラブルなFP8トレーニングを実演します。 1Bから13Bパラメータのモデルをトレーニングし、FP8のすべての隠れ線形層計算を実行することにより、本手法の有効性を検証した。
論文参考訳（メタデータ） (2025-02-09T17:31:09Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文参考訳（メタデータ） (2024-11-10T15:19:42Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。 FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。 COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。 COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-10-25T05:59:30Z)
Scaling FP8 training to trillion-token LLMs [26.195547788434908]
最大2兆トークンのデータセット上でFP8精度を使用して、大規模な言語モデルをトレーニングします。我々は,FP8トレーニングにおいて,より短い期間で観察できない重大な障害を発見した。 Smooth-SwiGLUは機能変更なしに安定したFP8トレーニングを実現する新しい修正である。
論文参考訳（メタデータ） (2024-09-19T07:15:58Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
Towards Federated Learning with On-device Training and Communication in 8-bit Floating Point [13.693064349530795]
近年の研究では、8ビット浮動小数点(FP8)がニューラルネットワークの効率的なトレーニングに利用できることが示されている。グローバルなFP32サーバモデルを維持しながらFP8クライアントトレーニングを組み合わせる新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-02T18:55:58Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
To FP8 and Back Again: Quantifying the Effects of Reducing Precision on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文参考訳（メタデータ） (2024-05-29T02:42:23Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。