Fugu-MT 論文翻訳(概要): Training Transformers with 4-bit Integers

論文の概要: Training Transformers with 4-bit Integers

arxiv url: http://arxiv.org/abs/2306.11987v2
Date: Thu, 22 Jun 2023 20:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 10:11:23.569242
Title: Training Transformers with 4-bit Integers
Title（参考訳）: 4ビット整数による変圧器の訓練
Authors: Haocheng Xi, Changhao Li, Jianfei Chen, and Jun Zhu
Abstract要約: 4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
参考スコア（独自算出の注目度）: 21.861232105539933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantizing the activation, weight, and gradient to 4-bit is promising to accelerate neural network training. However, existing 4-bit training methods require custom numerical formats which are not supported by contemporary hardware. In this work, we propose a training method for transformers with all matrix multiplications implemented with the INT4 arithmetic. Training with an ultra-low INT4 precision is challenging. To achieve this, we carefully analyze the specific structures of activation and gradients in transformers to propose dedicated quantizers for them. For forward propagation, we identify the challenge of outliers and propose a Hadamard quantizer to suppress the outliers. For backpropagation, we leverage the structural sparsity of gradients by proposing bit splitting and leverage score sampling techniques to quantize gradients accurately. Our algorithm achieves competitive accuracy on a wide range of tasks including natural language understanding, machine translation, and image classification. Unlike previous 4-bit training methods, our algorithm can be implemented on the current generation of GPUs. Our prototypical linear operator implementation is up to 2.2 times faster than the FP16 counterparts and speeds up the training by up to 35.1%.
Abstract（参考訳）: 4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークトレーニングの加速を約束する。しかし、既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。本稿では, int4演算で実装された行列乗算を全て含む変圧器の学習法を提案する。超低いINT4精度でのトレーニングは難しい。これを実現するために、変換器のアクティベーションと勾配の特定の構造を慎重に分析し、専用の量子化器を提案する。前進伝搬のために, オフレイラの課題を特定し, オフレイラの抑制を目的としたアダマール量化器を提案する。バックプロパゲーションのために,ビット分割を提案することで勾配の構造スパーシティを活用し,スコアサンプリング技術を用いて勾配を正確に定量化する。本アルゴリズムは,自然言語理解,機械翻訳,画像分類など,幅広いタスクにおいて,競合精度を実現する。従来の4ビットトレーニング手法とは異なり、我々のアルゴリズムは現在の世代のGPUで実装できる。原型線形演算子の実装はFP16よりも最大2.2倍高速で、トレーニングを最大35.1%高速化する。

関連論文リスト

A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文参考訳（メタデータ） (2025-06-08T18:43:31Z)
Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。 NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文参考訳（メタデータ） (2025-05-20T17:55:50Z)
Towards Accurate and Efficient Sub-8-Bit Integer Training [24.853958178296587]
量子化は、ニューラルネットワークトレーニングにおける低ビット幅フォーマットを可能にする。最近の手法では、量子化器上での新しいデータフォーマットと追加の事前処理操作が開発されている。高い精度と効率を同時に達成することは、依然として非常に難しい。
論文参考訳（メタデータ） (2024-11-17T03:32:36Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。 We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
Gradient-Free Neural Network Training on the Edge [12.472204825917629]
ニューラルネットワークのトレーニングは計算的に重く、エネルギー集約的である。この研究は、勾配を必要とせずにニューラルネットワークをトレーニングするための新しいテクニックを提示している。本研究では,各ニューロンの予測された分類に対する誤った寄与を同定することにより,勾配に基づく最適化手法を使わずにモデルを訓練することが可能であることを示す。
論文参考訳（メタデータ） (2024-10-13T05:38:39Z)
Accelerating Transformer Pre-training with 2:4 Sparsity [19.64391647966267]
NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。そこで本研究では,スパース精製ストレートスルー推定器を改良し,温暖化段階における分解係数を推定し,モデルの品質を向上させる3つの手法を提案する。提案アルゴリズムは,複数の変圧器事前学習タスクにおいて,密集学習アルゴリズムと類似の収束性を実現する一方,変圧器ブロックの異なる形状で実際の加速度を観測することができる。
論文参考訳（メタデータ） (2024-04-02T11:12:42Z)
Hadamard Domain Training with Integers for Class Incremental Quantized Learning [1.4416751609100908]
継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
論文参考訳（メタデータ） (2023-10-05T16:52:59Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文参考訳（メタデータ） (2022-07-20T06:27:06Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。 FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文参考訳（メタデータ） (2020-12-24T05:24:10Z)
Multi-Precision Policy Enforced Training (MuPPET): A precision-switching strategy for quantised fixed-point training of CNNs [13.83645579871775]
大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされる。この研究は、複数の精度を利用するマルチレベルアプローチを採用することで、定量化トレーニングの境界を押し上げる。 MuPPETは、トレーニング時のスピードアップを最大1.84$times$、ネットワーク全体の平均スピードアップを1.58$times$とすることで、通常の完全精度トレーニングと同じ精度を達成する。
論文参考訳（メタデータ） (2020-06-16T10:14:36Z)
Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。 SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-04-20T02:40:43Z)
Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文参考訳（メタデータ） (2019-12-29T08:37:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。