論文の概要: FP8-BERT: Post-Training Quantization for Transformer
- arxiv url: http://arxiv.org/abs/2312.05725v2
- Date: Tue, 12 Dec 2023 05:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:44:59.534526
- Title: FP8-BERT: Post-Training Quantization for Transformer
- Title(参考訳): FP8-BERT:変圧器の後の量子化
- Authors: Jianwei Li, Tianchi Zhang, Ian En-Hsu Yen, Dongkuan Xu
- Abstract要約: BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。
新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。
我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
- 参考スコア(独自算出の注目度): 20.51143486483669
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based models, such as BERT, have been widely applied in a wide
range of natural language processing tasks. However, one inevitable side effect
is that they require massive memory storage and inference cost when deployed in
production. Quantization is one of the popularized ways to alleviate the cost.
However, the previous 8-bit quantization strategy based on INT8 data format
either suffers from the degradation of accuracy in a Post-Training Quantization
(PTQ) fashion or requires an expensive Quantization-Aware Training (QAT)
process. Recently, a new numeric format FP8 (i.e. floating-point of 8-bits) has
been proposed and supported in commercial AI computing platforms such as H100.
In this paper, we empirically validate the effectiveness of FP8 as a way to do
Post-Training Quantization without significant loss of accuracy, with a simple
calibration and format conversion process. We adopt the FP8 standard proposed
by NVIDIA Corp. (2022) in our extensive experiments of BERT variants on GLUE
and SQuAD v1.1 datasets, and show that PTQ with FP8 can significantly improve
the accuracy upon that with INT8, to the extent of the full-precision model.
- Abstract(参考訳): BERTのようなトランスフォーマーベースのモデルは、幅広い自然言語処理タスクに広く応用されている。
しかし、避けられない副作用は、大規模なメモリストレージと本番環境にデプロイする際の推論コストである。
量子化はコストを緩和する一般的な方法の1つである。
しかし、INT8データフォーマットに基づく以前の8ビット量子化戦略は、PTQ(Post-Training Quantization)方式の精度の低下に悩まされるか、高価な量子化アウェアトレーニング(QAT)プロセスを必要とする。
近年、H100のような商用AIコンピューティングプラットフォームにおいて、新しい数値形式FP8(すなわち浮動小数点8ビット)が提案されサポートされている。
本稿では,簡単なキャリブレーションとフォーマット変換プロセスを用いて,精度を損なうことなく後トレーニング量子化を行う方法としてのfp8の有効性を実証的に検証した。
我々は NVIDIA Corp. (2022) が提案した FP8 標準を GLUE と SQuAD v1.1 データセットのBERT 変種に関する広範な実験に採用し、FP8 を用いた PTQ が INT8 の精度を大幅に向上できることを示す。
関連論文リスト
- EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [62.904403513409484]
大規模言語モデル(LLM)は、現代の自然言語処理や人工知能に不可欠なものである。
LLMを圧縮する新しい量子化手法であるEfficientQAT(Efficient Quantization-Aware Training)を提案する。
広範囲な実験により、EfficientQATは、様々なモデルで以前の量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Training and inference of large language models using 8-bit floating
point [3.689110902209004]
本稿では,重み,勾配,アクティベーションを動的に更新し,FP8線形層のスケーリングを選択する手法を提案する。
本稿では,111Mから70Bまでのモデルサイズに対して,FP8を用いたGPTとLlama 2の言語モデルの訓練と検証を行う。
論文 参考訳(メタデータ) (2023-09-29T13:24:33Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Unit Scaling: Out-of-the-Box Low-Precision Training [1.7188280334580197]
単位スケーリングは、低精度の数値形式の使用を単純化するディープラーニングモデルを設計するためのパラダイムである。
FP16や最近提案されたFP8フォーマットでのトレーニングは、大幅な効率向上をもたらすが、アウト・オブ・ザ・ボックスのトレーニングには十分な範囲を欠く可能性がある。
単位スケーリングは、全てのウェイト、アクティベーション、および初期化時の勾配の単位分散を求める、数値をモデル化するための原則化されたアプローチを導入することで、この問題に対処する。
論文 参考訳(メタデータ) (2023-03-20T16:42:25Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - ZeroQuant: Efficient and Affordable Post-Training Quantization for
Large-Scale Transformers [29.566132632781848]
我々は、ZeroQuantと呼ばれる大きなTransformerベースのモデルを圧縮するための、効率的で安価なポストトレーニング量子化手法を提案する。
ZeroQuantは3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。
論文 参考訳(メタデータ) (2022-06-04T00:28:21Z) - Learning Accurate Integer Transformer Machine-Translation Models [0.05184427980355132]
本論文では、8ビット整数(INT8)ハードウェア行列乗算器を用いて推論を行うための正確なトランスフォーマー機械翻訳モデルの訓練方法について述べる。
提案手法は,既存のFP32モデルからの行列乗算テンソルをすべてINT8テンソルに変換する。
論文 参考訳(メタデータ) (2020-01-03T18:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。