論文の概要: Integer Fine-tuning of Transformer-based Models
- arxiv url: http://arxiv.org/abs/2209.09815v1
- Date: Tue, 20 Sep 2022 16:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 19:04:12.935097
- Title: Integer Fine-tuning of Transformer-based Models
- Title(参考訳): 変圧器モデルにおける整数微調整
- Authors: Mohammadreza Tayaranian, Alireza Ghaffari, Marzieh S. Tahaei, Mehdi
Rezagholizadeh, Masoud Asgharian, Vahid Partovi Nia
- Abstract要約: 変圧器モデルにおける整数微調整において必要最小ビット幅を求めるために, 様々な整数ビット幅が与える影響について検討する。
16ビットの整数モデルが浮動小数点のベースライン性能と一致することを示す。
さらにビット幅を8に下げると、平均スコアは1.7ポイント低下する。
- 参考スコア(独自算出の注目度): 13.383066080742699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer based models are used to achieve state-of-the-art performance on
various deep learning tasks. Since transformer-based models have large numbers
of parameters, fine-tuning them on downstream tasks is computationally
intensive and energy hungry. Automatic mixed-precision FP32/FP16 fine-tuning of
such models has been previously used to lower the compute resource
requirements. However, with the recent advances in the low-bit integer
back-propagation, it is possible to further reduce the computation and memory
foot-print. In this work, we explore a novel integer training method that uses
integer arithmetic for both forward propagation and gradient computation of
linear, convolutional, layer-norm, and embedding layers in transformer-based
models. Furthermore, we study the effect of various integer bit-widths to find
the minimum required bit-width for integer fine-tuning of transformer-based
models. We fine-tune BERT and ViT models on popular downstream tasks using
integer layers. We show that 16-bit integer models match the floating-point
baseline performance. Reducing the bit-width to 10, we observe 0.5 average
score drop. Finally, further reduction of the bit-width to 8 provides an
average score drop of 1.7 points.
- Abstract(参考訳): トランスフォーマーベースのモデルは、様々なディープラーニングタスクにおける最先端のパフォーマンスを達成するために使用される。
トランスフォーマーベースのモデルには多くのパラメータがあるため、下流タスクの微調整は計算量が多く、省エネである。
このようなモデルの自動混合精度fp32/fp16の微調整は、計算リソース要件の低減にこれまで用いられてきた。
しかし、低ビット整数バックプロパゲーションの最近の進歩により、計算とメモリフットプリントをさらに削減することができる。
本研究では,線形,畳み込み,層ノルム,埋め込み層の前方伝播および勾配計算に整数演算を用いる新しい整数学習法について検討する。
さらに,様々な整数ビット幅の影響について検討し,変圧器モデルにおける整数微調整に必要な最小ビット幅を求める。
整数層を用いて、人気のある下流タスク上でBERTとViTモデルを微調整する。
16ビット整数モデルは浮動小数点ベースライン性能に適合することを示す。
ビット幅を10に減らすと、平均スコアが0.5低下する。
最後に、ビット幅を8に下げると平均スコアが1.7ポイント低下する。
関連論文リスト
- Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - I-ViT: Integer-only Quantization for Efficient Vision Transformer
Inference [3.067607520161916]
ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンアプリケーションで最先端のパフォーマンスを実現している。
これらのモデルにはかなりのストレージと計算オーバーヘッドがあり、エッジデバイスへのデプロイメントと効率的な推論が困難である。
整数演算とビットシフトによる推論の計算グラフ全体の実行を可能にするために,ViTの整数のみの量子化方式であるI-ViTを提案する。
論文 参考訳(メタデータ) (2022-07-04T13:37:38Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。