論文の概要: Towards Fully 8-bit Integer Inference for the Transformer Model
- arxiv url: http://arxiv.org/abs/2009.08034v2
- Date: Fri, 18 Sep 2020 06:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 09:11:43.534925
- Title: Towards Fully 8-bit Integer Inference for the Transformer Model
- Title(参考訳): 変圧器モデルの完全8ビット整数推論に向けて
- Authors: Ye Lin, Yanyang Li, Tengbo Liu, Tong Xiao, Tongran Liu and Jingbo Zhu
- Abstract要約: トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
- 参考スコア(独自算出の注目度): 39.22272841663168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 8-bit integer inference, as a promising direction in reducing both the
latency and storage of deep neural networks, has made great progress recently.
On the other hand, previous systems still rely on 32-bit floating point for
certain functions in complex models (e.g., Softmax in Transformer), and make
heavy use of quantization and de-quantization. In this work, we show that after
a principled modification on the Transformer architecture, dubbed Integer
Transformer, an (almost) fully 8-bit integer inference algorithm Scale
Propagation could be derived. De-quantization is adopted when necessary, which
makes the network more efficient. Our experiments on WMT16 En<->Ro, WMT14
En<->De and En->Fr translation tasks as well as the WikiText-103 language
modelling task show that the fully 8-bit Transformer system achieves comparable
performance with the floating point baseline but requires nearly 4x less memory
footprint.
- Abstract(参考訳): ディープニューラルネットワークのレイテンシとストレージを両立させる有望な方向として、8ビット整数推論が近年大きな進歩を遂げている。
一方、以前のシステムは複雑なモデル(例えばTransformerのSoftmax)の特定の関数に対して32ビット浮動小数点に依存しており、量子化と非量子化を多用している。
本研究では, Integer Transformer と呼ばれるTransformer アーキテクチャの基本的な変更を経て,(ほぼ) 完全 8ビット整数推論アルゴリズム Scale Propagation が導出可能であることを示す。
解量化は必要に応じて採用され、ネットワークをより効率的にする。
wmt16 en<->ro, wmt14 en<->deおよびen->fr翻訳タスクおよびwikitext-103言語モデリングタスクの実験では、完全な8ビットトランスフォーマシステムは浮動小数点ベースラインと同等の性能を達成しているが、メモリフットプリントは4倍近く削減されている。
関連論文リスト
- Integer Fine-tuning of Transformer-based Models [13.383066080742699]
変圧器モデルにおける整数微調整において必要最小ビット幅を求めるために, 様々な整数ビット幅が与える影響について検討する。
16ビットの整数モデルが浮動小数点のベースライン性能と一致することを示す。
さらにビット幅を8に下げると、平均スコアは1.7ポイント低下する。
論文 参考訳(メタデータ) (2022-09-20T16:02:28Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z) - Learning Accurate Integer Transformer Machine-Translation Models [0.05184427980355132]
本論文では、8ビット整数(INT8)ハードウェア行列乗算器を用いて推論を行うための正確なトランスフォーマー機械翻訳モデルの訓練方法について述べる。
提案手法は,既存のFP32モデルからの行列乗算テンソルをすべてINT8テンソルに変換する。
論文 参考訳(メタデータ) (2020-01-03T18:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。