論文の概要: Recipes for Pre-training LLMs with MXFP8
- arxiv url: http://arxiv.org/abs/2506.08027v1
- Date: Fri, 30 May 2025 21:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.081551
- Title: Recipes for Pre-training LLMs with MXFP8
- Title(参考訳): MXFP8によるLLMの事前学習の準備
- Authors: Asit Mishra, Dusan Stosic, Simon Layton,
- Abstract要約: 精度のスケーリングは、精度を犠牲にすることなくGPU効率を改善するための魅力的なテクニックとして現れている。
MX形式は、他の縮小精度表現に比べて数値安定性が向上する。
15Tトークン上の8Bモデルに対して,MXFP8の事前学習を成功させるラウンド・ツー・インフィニティを用いたラウンド・ツー・インフィニティ(ラウンド・トゥ・インフィニティ)の改良手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precision scaling - using fewer bits to represent model parameters and related tensors during pre-training - has emerged as a compelling technique for improving GPU efficiency without sacrificing accuracy. Microscaling (MX) formats in NVIDIA's latest Blackwell GPUs represent a major leap in enabling this precision scaling aspect. These formats combine narrow floating-point data types with per-block scaling factors, offering a fine-grained approach to quantizing tensors. Although MX-formats offer the promise of improved numeric stability compared to other reduced-precision representations, in practice they must be used carefully in order to successfully converge an LLM on a multi-trillion token dataset. In this paper, we show that the rounding mode suggested in OCP specification can lead to divergence when pre-training an LLM. We show an improved rounding mode, which uses round-to-infinity to compute scaling factors, enables successful pre-training in MXFP8 for an 8B model on 15T tokens.
- Abstract(参考訳): 事前トレーニング中にモデルパラメータと関連するテンソルを表現するために、より少ないビットを使用する精度スケーリングは、精度を犠牲にすることなく、GPU効率を改善するための魅力的なテクニックとして登場した。
NVIDIAの最新のBlackwell GPUにおけるマイクロスケーリング(MX)フォーマットは、この精度スケーリングの側面を実現するための大きな飛躍である。
これらのフォーマットは、狭い浮動小数点データ型とブロックごとのスケーリング要素を組み合わせることで、テンソルを定量化するためのきめ細かいアプローチを提供する。
MX形式は、他の縮小精度表現と比較して数値安定性の向上を約束するが、実際にはマルチトリリオントークンデータセット上でLLMをうまく収束させるためには、慎重に使用する必要がある。
本稿では,OPP仕様で提案される丸めモードが,LCMの事前学習時にばらつきを引き起こすことを示す。
15Tトークン上の8Bモデルに対して,MXFP8の事前学習を成功させるラウンド・ツー・インフィニティを用いたラウンド・ツー・インフィニティ(ラウンド・トゥ・インフィニティ)の改良手法を提案する。
関連論文リスト
- Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。
ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文 参考訳(メタデータ) (2025-01-05T02:30:41Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - Microscaling Data Formats for Deep Learning [29.70183999642415]
狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。
本稿では,ブロック単位のスケーリング係数と,個々の要素に対する狭い浮動小数点型と整数型を組み合わせたマイクロスケーリング(MX)データ形式について検討する。
論文 参考訳(メタデータ) (2023-10-16T16:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。