論文の概要: Learning Accurate Integer Transformer Machine-Translation Models
- arxiv url: http://arxiv.org/abs/2001.00926v1
- Date: Fri, 3 Jan 2020 18:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 17:18:49.290910
- Title: Learning Accurate Integer Transformer Machine-Translation Models
- Title(参考訳): 精密整数変換器機械翻訳モデルの学習
- Authors: Ephrem Wu
- Abstract要約: 本論文では、8ビット整数(INT8)ハードウェア行列乗算器を用いて推論を行うための正確なトランスフォーマー機械翻訳モデルの訓練方法について述べる。
提案手法は,既存のFP32モデルからの行列乗算テンソルをすべてINT8テンソルに変換する。
- 参考スコア(独自算出の注目度): 0.05184427980355132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a method for training accurate Transformer machine-translation
models to run inference using 8-bit integer (INT8) hardware matrix multipliers,
as opposed to the more costly single-precision floating-point (FP32) hardware.
Unlike previous work, which converted only 85 Transformer matrix
multiplications to INT8, leaving 48 out of 133 of them in FP32 because of
unacceptable accuracy loss, we convert them all to INT8 without compromising
accuracy. Tested on the newstest2014 English-to-German translation task, our
INT8 Transformer Base and Transformer Big models yield BLEU scores that are
99.3% to 100% relative to those of the corresponding FP32 models. Our approach
converts all matrix-multiplication tensors from an existing FP32 model into
INT8 tensors by automatically making range-precision trade-offs during
training. To demonstrate the robustness of this approach, we also include
results from INT6 Transformer models.
- Abstract(参考訳): 本稿では,8ビット整数(INT8)ハードウェア行列乗算器を用いて,よりコストのかかる単一精度浮動小数点演算(FP32)ハードウェアに対して,精度の高いトランスフォーマー機械翻訳モデルを推論する手法について述べる。
85 Transformer の行列乗算を INT8 に変換し、FP32 では 133 のうち48 を許容できない精度の損失で残していたが、これらは全て INT8 に変換した。
2014年の英独翻訳タスクでテストされたINT8トランスフォーマーベースとトランスフォーマービッグモデルは、対応するFP32モデルと比較して99.3%から100%のBLEUスコアを得る。
提案手法では,既存のFP32モデルの行列乗算テンソルをすべてINT8テンソルに変換する。
このアプローチの堅牢性を示すために、INT6 Transformerモデルの結果も含む。
関連論文リスト
- Genetic Quantization-Aware Approximation for Non-Linear Operations in Transformers [26.62171477561166]
非線型関数はトランスフォーマーとその軽量な変種で広く使われており、ハードウェアコストは大幅に過小評価されている。
従来の最先端の作業では、これらの操作を1次線形近似により最適化し、パラメータをルックアップテーブル(LUT)に格納する。
本稿では,量子化認識を用いたパラメータの自動決定が可能な遺伝的LUT近似アルゴリズムGQA-LUTを提案する。
論文 参考訳(メタデータ) (2024-03-28T17:13:47Z) - Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization [19.414153137453415]
本稿では, 変圧器に特化した INT8 トレーニング手法であるJetfire を提案する。
本手法は、メモリアクセスを最適化するINT8データフローと、事前学習した変換器の精度を維持するブロックごとの量子化手法を特徴とする。
標準変圧器ブロックでは、FP16ベースラインと比較して、エンドツーエンドのトレーニングスピードアップが1.42倍、メモリ削減が1.49倍となる。
論文 参考訳(メタデータ) (2024-03-19T04:09:11Z) - FP8-BERT: Post-Training Quantization for Transformer [20.51143486483669]
BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。
新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。
我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
論文 参考訳(メタデータ) (2023-12-10T02:14:34Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。