論文の概要: I-BERT: Integer-only BERT Quantization
- arxiv url: http://arxiv.org/abs/2101.01321v2
- Date: Thu, 11 Feb 2021 09:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:38:42.440310
- Title: I-BERT: Integer-only BERT Quantization
- Title(参考訳): I-BERT:整数のみのBERT量子化
- Authors: Sehoon Kim, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer
- Abstract要約: トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
- 参考スコア(独自算出の注目度): 78.43819756382103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer based models, like BERT and RoBERTa, have achieved
state-of-the-art results in many Natural Language Processing tasks. However,
their memory footprint, inference latency, and power consumption are
prohibitive for efficient inference at the edge, and even at the data center.
While quantization can be a viable solution for this, previous work on
quantizing Transformer based models use floating-point arithmetic during
inference, which cannot efficiently utilize integer-only logical units such as
the recent Turing Tensor Cores, or traditional integer-only ARM processors. In
this work, we propose I-BERT, a novel quantization scheme for Transformer based
models that quantizes the entire inference with integer-only arithmetic. Based
on lightweight integer-only approximation methods for nonlinear operations,
e.g., GELU, Softmax, and Layer Normalization, I-BERT performs an end-to-end
integer-only BERT inference without any floating point calculation. We evaluate
our approach on GLUE downstream tasks using RoBERTa-Base/Large. We show that
for both cases, I-BERT achieves similar (and slightly higher) accuracy as
compared to the full-precision baseline. Furthermore, our preliminary
implementation of I-BERT shows a speedup of 2.4 - 4.0x for INT8 inference on a
T4 GPU system as compared to FP32 inference. The framework has been developed
in PyTorch and has been open-sourced.
- Abstract(参考訳): BERTやRoBERTaのようなトランスフォーマーベースのモデルは、多くの自然言語処理タスクで最先端の結果を得た。
しかし、そのメモリフットプリント、推論レイテンシ、電力消費は、エッジやデータセンターでも効率的な推論が禁じられている。
量子化は実現可能な解決策であるが、前回のトランスフォーマーモデルの量子化では、推論中に浮動小数点演算が用いられており、最近のチューリングテンソルコアや従来の整数のみのarmプロセッサのような整数のみの論理単位を効率的に利用できない。
本研究では,整数のみの算術で推論全体を量子化するトランスフォーマーモデルのための新しい量子化スキームI-BERTを提案する。
I-BERTは、GELU、Softmax、Layer Normalizationなどの非線形演算のための軽量整数専用近似法に基づいて、浮動小数点演算なしでエンドツーエンドの整数専用BERT推論を実行する。
我々は,RoBERTa-Base/Largeを用いて,GLUE下流タスクに対するアプローチを評価する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
さらに,我々は,T4 GPUシステム上でのINT8推論において,FP32推論と比較して2.4-4.0xの高速化を示した。
このフレームワークはPyTorchで開発され、オープンソース化されている。
関連論文リスト
- STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。
STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。
われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文 参考訳(メタデータ) (2024-05-29T22:59:11Z) - Integer Fine-tuning of Transformer-based Models [13.383066080742699]
変圧器モデルにおける整数微調整において必要最小ビット幅を求めるために, 様々な整数ビット幅が与える影響について検討する。
16ビットの整数モデルが浮動小数点のベースライン性能と一致することを示す。
さらにビット幅を8に下げると、平均スコアは1.7ポイント低下する。
論文 参考訳(メタデータ) (2022-09-20T16:02:28Z) - I-ViT: Integer-only Quantization for Efficient Vision Transformer
Inference [3.067607520161916]
ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンアプリケーションで最先端のパフォーマンスを実現している。
これらのモデルにはかなりのストレージと計算オーバーヘッドがあり、エッジデバイスへのデプロイメントと効率的な推論が困難である。
整数演算とビットシフトによる推論の計算グラフ全体の実行を可能にするために,ViTの整数のみの量子化方式であるI-ViTを提案する。
論文 参考訳(メタデータ) (2022-07-04T13:37:38Z) - MKQ-BERT: Quantized BERT with 4-bits Weights and Activations [13.687982804234293]
圧縮レベルをさらに改善し,量子化に4ビットを使用するMKQ-BERTを提案する。
4ビットBERTのデプロイに成功した最初の作業であり、推論のエンドツーエンドのスピードアップを実現しています。
論文 参考訳(メタデータ) (2022-03-25T07:27:18Z) - Integer-arithmetic-only Certified Robustness for Quantized Neural
Networks [14.737638416823772]
敵の例に対処する一連の作業は、ランダムな平滑化による堅牢性を保証する。
このようなメカニズムは通常、推論の計算に浮動小数点演算を使用する。
提案手法は,浮動小数点演算によるロバストな手法よりも精度と4x5xの高速化が得られることを示す。
論文 参考訳(メタデータ) (2021-08-21T01:15:19Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。