Fugu-MT 論文翻訳(概要): Accurate INT8 Training Through Dynamic Block-Level Fallback

論文の概要: Accurate INT8 Training Through Dynamic Block-Level Fallback

arxiv url: http://arxiv.org/abs/2503.08040v2
Date: Wed, 12 Mar 2025 03:20:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 12:13:53.144721
Title: Accurate INT8 Training Through Dynamic Block-Level Fallback
Title（参考訳）: 動的ブロックレベルフォールバックによる精度INT8トレーニング
Authors: Pengle Zhang, Jia Wei, Jintao Zhang, Jun Zhu, Jianfei Chen,
Abstract要約: トランスフォーマーモデルは、さまざまなAIアプリケーションで顕著な成功を収めているが、かなりのトレーニングコストに直面している。オフレイアを含むアクティベーションブロックに対して,動的に8ビットから16ビットにフォールバックする混合精度GEMMを実装したフォールバック量子化を提案する。実験により、我々のアプローチは微調整と事前学習の両方で堅牢に機能していることが示された。
参考スコア（独自算出の注目度）: 21.808835887740543
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer models have achieved remarkable success across various AI applications but face significant training costs. Low-bit training, such as INT8 training, can leverage computational units with higher throughput, and has already demonstrated its effectiveness on GPT2 models with block-level quantization. However, it struggles with modern Transformer variants incorporating GLU units. This is because those variants demonstrate complex distributions of activation outliers. To address the challenge, we propose Fallback Quantization, implementing mixed-precision GEMM that dynamically falls back 8-bit to 16-bit for activation blocks containing outliers. Experiments show that our approach is robustly competent in both fine-tuning and pretraining settings. Moreover, our method achieves a 1.57x end-to-end training speedup on RTX4090 GPUs.
Abstract（参考訳）: トランスフォーマーモデルは、さまざまなAIアプリケーションで顕著な成功を収めているが、かなりのトレーニングコストに直面している。 INT8トレーニングのような低ビットトレーニングは、高いスループットで計算ユニットを活用でき、ブロックレベルの量子化を備えたGPT2モデルでその効果をすでに実証している。しかし、GLUユニットを組み込んだ現代のTransformerの派生機と競合する。これはこれらの変種がアクティベーション・アウトリーの複雑な分布を示すためである。この課題に対処するために、オフレイアを含むアクティベーションブロックに対して、動的に8ビットから16ビットにフォールバックする混合精度GEMMを実装したFallback Quantizationを提案する。実験により、我々のアプローチは微調整と事前学習の両方で堅牢に機能していることが示された。さらに,RTX4090 GPU上での1.57倍のエンドツーエンドトレーニング高速化を実現する。

関連論文リスト

Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文参考訳（メタデータ） (2025-05-26T21:04:14Z)
The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training [51.84624027213658]
本稿では、各ブロックのシャープネスに合わせてLRを調整する戦略であるブロックワイズ学習率(LR)を提案する。モデルサイズは0.12Bから2Bの範囲である。最近提案されたメモリ効率のAdam-miniにBlockwise LRを組み込むことで、2倍のスピードアップと2倍のメモリ節約を実現しています。
論文参考訳（メタデータ） (2025-02-26T10:06:37Z)
Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models? [5.67099529296254]
大規模言語モデル(LLM)は、トレーニングと推論に膨大なリソースを必要とする。近年の研究では、重量パラメータ1本あたり1.58ビットのLSMをスクラッチからトレーニングすることは、モデルの精度を維持することができることが示唆されている。
論文参考訳（メタデータ） (2025-02-17T15:21:11Z)
$μ$nit Scaling: Simple and Scalable FP8 LLM Training [6.447975505471247]
8ビット浮動小数点(FP8)フォーマットによる大規模言語モデルトレーニングでは、大幅な効率向上が期待できるが、数値的な精度の低下はトレーニングを困難にしている。モデルのサイズが大きければ、動的スケーリングファクタを必要としない、シンプルでスケーラブルなFP8トレーニングを実演します。 1Bから13Bパラメータのモデルをトレーニングし、FP8のすべての隠れ線形層計算を実行することにより、本手法の有効性を検証した。
論文参考訳（メタデータ） (2025-02-09T17:31:09Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。 FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。 COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。 COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-10-25T05:59:30Z)
Scaling FP8 training to trillion-token LLMs [26.195547788434908]
最大2兆トークンのデータセット上でFP8精度を使用して、大規模な言語モデルをトレーニングします。我々は,FP8トレーニングにおいて,より短い期間で観察できない重大な障害を発見した。 Smooth-SwiGLUは機能変更なしに安定したFP8トレーニングを実現する新しい修正である。
論文参考訳（メタデータ） (2024-09-19T07:15:58Z)
FP8-BERT: Post-Training Quantization for Transformer [20.51143486483669]
BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
論文参考訳（メタデータ） (2023-12-10T02:14:34Z)
Training Transformers with 4-bit Integers [21.861232105539933]
4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
論文参考訳（メタデータ） (2023-06-21T02:45:01Z)
Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。 Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13～25%の高速化を実現した。安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1～8回発生することを発見した。
論文参考訳（メタデータ） (2023-04-25T17:38:18Z)
FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。 E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。 16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文参考訳（メタデータ） (2022-09-12T17:39:55Z)
FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。 FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文参考訳（メタデータ） (2020-12-24T05:24:10Z)
Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文参考訳（メタデータ） (2019-12-29T08:37:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。