論文の概要: Characterization and Mitigation of Training Instabilities in Microscaling Formats
- arxiv url: http://arxiv.org/abs/2506.20752v1
- Date: Wed, 25 Jun 2025 18:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.848948
- Title: Characterization and Mitigation of Training Instabilities in Microscaling Formats
- Title(参考訳): マイクロスケーリングフォーマットにおけるトレーニング不安定性の評価と軽減
- Authors: Huangyuan Su, Mujin Kwun, Stephanie Gil, Sham Kakade, Nikhil Anand,
- Abstract要約: 大規模言語モデルのトレーニングは、高価な計算処理です。
次世代ハードウェアアクセラレータは、より低い精度の算術形式をサポートするようになった。
モデル学習におけるブロックスケール精度フォーマットの課題と実現可能性について検討する。
- 参考スコア(独自算出の注目度): 6.025438902954768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models is an expensive, compute-bound process that must be repeated as models scale, algorithms improve, and new data is collected. To address this, next-generation hardware accelerators increasingly support lower-precision arithmetic formats, such as the Microscaling (MX) formats introduced in NVIDIA's Blackwell architecture. These formats use a shared scale within blocks of parameters to extend representable range and perform forward/backward GEMM operations in reduced precision for efficiency gains. In this work, we investigate the challenges and viability of block-scaled precision formats during model training. Across nearly one thousand language models trained from scratch -- spanning compute budgets from $2 \times 10^{17}$ to $4.8 \times 10^{19}$ FLOPs and sweeping over a broad range of weight-activation precision combinations -- we consistently observe that training in MX formats exhibits sharp, stochastic instabilities in the loss, particularly at larger compute scales. To explain this phenomenon, we conduct controlled experiments and ablations on a smaller proxy model that exhibits similar behavior as the language model, sweeping across architectural settings, hyperparameters, and precision formats. These experiments motivate a simple model in which multiplicative gradient bias introduced by the quantization of layer-norm affine parameters and a small fraction of activations can trigger runaway divergence. Through \emph{in situ} intervention experiments on our proxy model, we demonstrate that instabilities can be averted or delayed by modifying precision schemes mid-training. Guided by these findings, we evaluate stabilization strategies in the LLM setting and show that certain hybrid configurations recover performance competitive with full-precision training. We release our code at https://github.com/Hither1/systems-scaling.
- Abstract(参考訳): 大規模言語モデルのトレーニングは高価な計算バウンドプロセスであり、モデルスケール、アルゴリズムの改善、新しいデータが収集されるように繰り返す必要がある。
これを解決するために、次世代ハードウェアアクセラレータは、NVIDIAのBlackwellアーキテクチャで導入されたMicroscaling (MX)フォーマットのような、より高精度な演算フォーマットをサポートするようになった。
これらのフォーマットは、パラメータのブロック内で共有スケールを使用して、表現可能な範囲を拡張し、効率向上のために精度の低いGEMM操作を行う。
本研究では,モデル学習におけるブロックスケール精度フォーマットの課題と実現可能性について検討する。
ゼロからトレーニングされた1000近い言語モデル -- 計算予算を2ドルから4.8ドルまで - FLOPを対象とし、幅広いウェイトアクティベーション精度の組み合わせを網羅する -- にまたがって、MXフォーマットでのトレーニングは、特に大きな計算スケールにおいて、シャープで確率的な不安定さを示すことを一貫して観察しています。
この現象を説明するために、我々はより小さなプロキシモデルで制御された実験を行い、言語モデルと同じような振る舞いを示し、アーキテクチャ設定、ハイパーパラメータ、精度フォーマットを網羅する。
これらの実験は、層-ノルムアフィンパラメータと少数のアクティベーションの量子化によって引き起こされる乗法的勾配バイアスが脱走の発散を引き起こすという単純なモデルを動機付けている。
プロキシモデル上でのemph{in situ}介入実験を通じて、トレーニング中の精度スキームを変更することで不安定性を回避または遅らせることができることを示す。
これらの結果から,LLM設定における安定化戦略を評価し,特定のハイブリッド構成が完全精度トレーニングと競合する性能を回復することを示す。
コードをhttps://github.com/Hither1/systems-scaling.comでリリースします。
関連論文リスト
- Scaling Laws for Upcycling Mixture-of-Experts Language Models [17.796361238003403]
大規模言語モデル(LLM)の事前トレーニングはリソース集約的であり、ハイエンドのGPUクラスタでも数ヶ月のトレーニング時間を必要とすることが多い。
そのような計算要求を緩和する2つのアプローチがある: より小さなモデルを再利用して、より大きなモデルをトレーニングする(アップサイクル)、そして、Mix-of-experts (MoE)のような計算効率の良いモデルを訓練する。
論文 参考訳(メタデータ) (2025-02-05T09:11:13Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。