論文の概要: Recipes for Pre-training LLMs with MXFP8
- arxiv url: http://arxiv.org/abs/2506.08027v2
- Date: Mon, 18 Aug 2025 19:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 19:50:20.211006
- Title: Recipes for Pre-training LLMs with MXFP8
- Title(参考訳): MXFP8によるLLMの事前学習の準備
- Authors: Asit Mishra, Dusan Stosic, Simon Layton, Paulius Micikevicius,
- Abstract要約: 最大8Bパラメータを持つモデルを用いて,最大15Tトークンの高品質データセットに基づいてトレーニングを行った。
MXFP8-E4M3データ型と特定の数値変換アルゴリズムが,BF16で実施したデータと一致するトレーニングセッションを実現する方法を示す。
- 参考スコア(独自算出の注目度): 0.08732752045535426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using fewer bits to represent model parameters and related tensors during pre-training has become a required technique for improving GPU efficiency without sacrificing accuracy. Microscaling (MX) formats introduced in NVIDIA Blackwell generation of GPUs represent a major advancement of this technique, making it practical to combine narrow floating-point data types with finer granularity per-block scaling factors. In turn, this enables both quantization of more tensors than previous approaches and more efficient execution of operations on those tensors. Effective use of MX-formats requires careful choices of various parameters. In this paper we review these choices and show how MXFP8-E4M3 datatype and a specific number conversion algorithm result in training sessions that match those carried out in BF16. We present results using models with up to 8B parameters, trained on high-quality datasets of up to 15T tokens.
- Abstract(参考訳): 事前トレーニング中にモデルパラメータと関連するテンソルを表現するためにビットが少なくなったことは、精度を犠牲にすることなくGPU効率を改善するために必要な技術となっている。
NVIDIA Blackwell 世代で導入されたマイクロスケーリング(MX)フォーマットは、この技術の大きな進歩を反映しており、狭い浮動小数点データ型とブロック毎のスケーリング要因をより細かく組み合わせることが現実的である。
これにより、従来のアプローチよりも多くのテンソルの量子化と、それらのテンソル上の操作のより効率的な実行が可能になる。
MXフォーマットの有効利用には、様々なパラメータを慎重に選択する必要がある。
本稿では,これらの選択を概観し,MXFP8-E4M3データタイプと具体的な数値変換アルゴリズムが,BF16で実施したデータと一致するトレーニングセッションを実現する方法を示す。
最大8Bパラメータを持つモデルを用いて,最大15Tトークンの高品質データセットに基づいてトレーニングを行った。
関連論文リスト
- Characterization and Mitigation of Training Instabilities in Microscaling Formats [6.025438902954768]
大規模言語モデルのトレーニングは、高価な計算処理です。
次世代ハードウェアアクセラレータは、より低い精度の算術形式をサポートするようになった。
モデル学習におけるブロックスケール精度フォーマットの課題と実現可能性について検討する。
論文 参考訳(メタデータ) (2025-06-25T18:25:08Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。
ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文 参考訳(メタデータ) (2025-01-05T02:30:41Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Scalify: scale propagation for efficient low-precision LLM training [1.4999444543328293]
float8のような低精度のフォーマットが機械学習アクセラレーションハードウェアに導入され、大規模言語モデルのトレーニングと推論の計算効率が向上した。
本稿では,計算グラフのためのエンドツーエンドのスケール伝搬パラダイムであるScalifyを提案する。
論文 参考訳(メタデータ) (2024-07-24T15:26:01Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - Microscaling Data Formats for Deep Learning [29.70183999642415]
狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。
本稿では,ブロック単位のスケーリング係数と,個々の要素に対する狭い浮動小数点型と整数型を組み合わせたマイクロスケーリング(MX)データ形式について検討する。
論文 参考訳(メタデータ) (2023-10-16T16:07:41Z) - All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and
Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。
複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。
古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文 参考訳(メタデータ) (2021-04-15T09:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。