論文の概要: Recipes for Pre-training LLMs with MXFP8
- arxiv url: http://arxiv.org/abs/2506.08027v1
- Date: Fri, 30 May 2025 21:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.081551
- Title: Recipes for Pre-training LLMs with MXFP8
- Title(参考訳): MXFP8によるLLMの事前学習の準備
- Authors: Asit Mishra, Dusan Stosic, Simon Layton,
- Abstract要約: 精度のスケーリングは、精度を犠牲にすることなくGPU効率を改善するための魅力的なテクニックとして現れている。
MX形式は、他の縮小精度表現に比べて数値安定性が向上する。
15Tトークン上の8Bモデルに対して,MXFP8の事前学習を成功させるラウンド・ツー・インフィニティを用いたラウンド・ツー・インフィニティ(ラウンド・トゥ・インフィニティ)の改良手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precision scaling - using fewer bits to represent model parameters and related tensors during pre-training - has emerged as a compelling technique for improving GPU efficiency without sacrificing accuracy. Microscaling (MX) formats in NVIDIA's latest Blackwell GPUs represent a major leap in enabling this precision scaling aspect. These formats combine narrow floating-point data types with per-block scaling factors, offering a fine-grained approach to quantizing tensors. Although MX-formats offer the promise of improved numeric stability compared to other reduced-precision representations, in practice they must be used carefully in order to successfully converge an LLM on a multi-trillion token dataset. In this paper, we show that the rounding mode suggested in OCP specification can lead to divergence when pre-training an LLM. We show an improved rounding mode, which uses round-to-infinity to compute scaling factors, enables successful pre-training in MXFP8 for an 8B model on 15T tokens.
- Abstract(参考訳): 事前トレーニング中にモデルパラメータと関連するテンソルを表現するために、より少ないビットを使用する精度スケーリングは、精度を犠牲にすることなく、GPU効率を改善するための魅力的なテクニックとして登場した。
NVIDIAの最新のBlackwell GPUにおけるマイクロスケーリング(MX)フォーマットは、この精度スケーリングの側面を実現するための大きな飛躍である。
これらのフォーマットは、狭い浮動小数点データ型とブロックごとのスケーリング要素を組み合わせることで、テンソルを定量化するためのきめ細かいアプローチを提供する。
MX形式は、他の縮小精度表現と比較して数値安定性の向上を約束するが、実際にはマルチトリリオントークンデータセット上でLLMをうまく収束させるためには、慎重に使用する必要がある。
本稿では,OPP仕様で提案される丸めモードが,LCMの事前学習時にばらつきを引き起こすことを示す。
15Tトークン上の8Bモデルに対して,MXFP8の事前学習を成功させるラウンド・ツー・インフィニティを用いたラウンド・ツー・インフィニティ(ラウンド・トゥ・インフィニティ)の改良手法を提案する。
関連論文リスト
- INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Characterization and Mitigation of Training Instabilities in Microscaling Formats [6.025438902954768]
大規模言語モデルのトレーニングは、高価な計算処理です。
次世代ハードウェアアクセラレータは、より低い精度の算術形式をサポートするようになった。
モデル学習におけるブロックスケール精度フォーマットの課題と実現可能性について検討する。
論文 参考訳(メタデータ) (2025-06-25T18:25:08Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。
ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文 参考訳(メタデータ) (2025-01-05T02:30:41Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Scalify: scale propagation for efficient low-precision LLM training [1.4999444543328293]
float8のような低精度のフォーマットが機械学習アクセラレーションハードウェアに導入され、大規模言語モデルのトレーニングと推論の計算効率が向上した。
本稿では,計算グラフのためのエンドツーエンドのスケール伝搬パラダイムであるScalifyを提案する。
論文 参考訳(メタデータ) (2024-07-24T15:26:01Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - Microscaling Data Formats for Deep Learning [29.70183999642415]
狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。
本稿では,ブロック単位のスケーリング係数と,個々の要素に対する狭い浮動小数点型と整数型を組み合わせたマイクロスケーリング(MX)データ形式について検討する。
論文 参考訳(メタデータ) (2023-10-16T16:07:41Z) - Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How [62.467716468917224]
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索し,微調整する手法を提案する。
本手法は,一連のデータセット上で,事前学習したモデルの性能に関する知識を伝達する。
得られたアプローチによって、新しいデータセットの正確な事前学習モデルを迅速に選択できることを実証的に実証する。
論文 参考訳(メタデータ) (2023-06-06T16:15:26Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - 8-bit Numerical Formats for Deep Neural Networks [1.304892050913381]
本研究では,8ビット浮動小数点数形式を用いて,トレーニングと推論の両方にアクティベーション,重み,勾配を求める。
実験により、これらの低精度フォーマットの適切な選択は、画像分類と言語処理のための様々なディープラーニングモデルに対して、精度を劣化させることなく、高速なトレーニングと消費電力削減を可能にすることが示された。
論文 参考訳(メタデータ) (2022-06-06T21:31:32Z) - All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and
Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。
複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。
古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文 参考訳(メタデータ) (2021-04-15T09:37:23Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。