Fugu-MT 論文翻訳(概要): Recipes for Pre-training LLMs with MXFP8

論文の概要: Recipes for Pre-training LLMs with MXFP8

arxiv url: http://arxiv.org/abs/2506.08027v1
Date: Fri, 30 May 2025 21:08:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 03:13:19.081551
Title: Recipes for Pre-training LLMs with MXFP8
Title（参考訳）: MXFP8によるLLMの事前学習の準備
Authors: Asit Mishra, Dusan Stosic, Simon Layton,
Abstract要約: 精度のスケーリングは、精度を犠牲にすることなくGPU効率を改善するための魅力的なテクニックとして現れている。 MX形式は、他の縮小精度表現に比べて数値安定性が向上する。 15Tトークン上の8Bモデルに対して,MXFP8の事前学習を成功させるラウンド・ツー・インフィニティを用いたラウンド・ツー・インフィニティ(ラウンド・トゥ・インフィニティ)の改良手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Precision scaling - using fewer bits to represent model parameters and related tensors during pre-training - has emerged as a compelling technique for improving GPU efficiency without sacrificing accuracy. Microscaling (MX) formats in NVIDIA's latest Blackwell GPUs represent a major leap in enabling this precision scaling aspect. These formats combine narrow floating-point data types with per-block scaling factors, offering a fine-grained approach to quantizing tensors. Although MX-formats offer the promise of improved numeric stability compared to other reduced-precision representations, in practice they must be used carefully in order to successfully converge an LLM on a multi-trillion token dataset. In this paper, we show that the rounding mode suggested in OCP specification can lead to divergence when pre-training an LLM. We show an improved rounding mode, which uses round-to-infinity to compute scaling factors, enables successful pre-training in MXFP8 for an 8B model on 15T tokens.
Abstract（参考訳）: 事前トレーニング中にモデルパラメータと関連するテンソルを表現するために、より少ないビットを使用する精度スケーリングは、精度を犠牲にすることなく、GPU効率を改善するための魅力的なテクニックとして登場した。 NVIDIAの最新のBlackwell GPUにおけるマイクロスケーリング(MX)フォーマットは、この精度スケーリングの側面を実現するための大きな飛躍である。これらのフォーマットは、狭い浮動小数点データ型とブロックごとのスケーリング要素を組み合わせることで、テンソルを定量化するためのきめ細かいアプローチを提供する。 MX形式は、他の縮小精度表現と比較して数値安定性の向上を約束するが、実際にはマルチトリリオントークンデータセット上でLLMをうまく収束させるためには、慎重に使用する必要がある。本稿では,OPP仕様で提案される丸めモードが,LCMの事前学習時にばらつきを引き起こすことを示す。 15Tトークン上の8Bモデルに対して,MXFP8の事前学習を成功させるラウンド・ツー・インフィニティを用いたラウンド・ツー・インフィニティ(ラウンド・トゥ・インフィニティ)の改良手法を提案する。

関連論文リスト

Characterization and Mitigation of Training Instabilities in Microscaling Formats [6.025438902954768]
大規模言語モデルのトレーニングは、高価な計算処理です。次世代ハードウェアアクセラレータは、より低い精度の算術形式をサポートするようになった。モデル学習におけるブロックスケール精度フォーマットの課題と実現可能性について検討する。
論文参考訳（メタデータ） (2025-06-25T18:25:08Z)
Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文参考訳（メタデータ） (2025-05-26T21:04:14Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文参考訳（メタデータ） (2025-01-05T02:30:41Z)
Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文参考訳（メタデータ） (2024-11-01T21:11:48Z)
Scalify: scale propagation for efficient low-precision LLM training [1.4999444543328293]
float8のような低精度のフォーマットが機械学習アクセラレーションハードウェアに導入され、大規模言語モデルのトレーニングと推論の計算効率が向上した。本稿では,計算グラフのためのエンドツーエンドのスケール伝搬パラダイムであるScalifyを提案する。
論文参考訳（メタデータ） (2024-07-24T15:26:01Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。 CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。 15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文参考訳（メタデータ） (2024-02-06T14:53:19Z)
Microscaling Data Formats for Deep Learning [29.70183999642415]
狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。本稿では,ブロック単位のスケーリング係数と,個々の要素に対する狭い浮動小数点型と整数型を組み合わせたマイクロスケーリング(MX)データ形式について検討する。
論文参考訳（メタデータ） (2023-10-16T16:07:41Z)
All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文参考訳（メタデータ） (2021-04-15T09:37:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。