論文の概要: Zero-Shot Dynamic Quantization for Transformer Inference
- arxiv url: http://arxiv.org/abs/2211.09744v1
- Date: Thu, 17 Nov 2022 18:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:12:33.774261
- Title: Zero-Shot Dynamic Quantization for Transformer Inference
- Title(参考訳): 変圧器推論のためのゼロショット動的量子化
- Authors: Yousef El-Kurdi, Jerry Quinn and Avirup Sil
- Abstract要約: 本研究では,BERT型モデルの8ビット整数への量子化に伴う精度損失を大幅に低減する新しい実行時手法を提案する。
本手法の有用性を示すいくつかのNLPタスクについて報告する。
- 参考スコア(独自算出の注目度): 8.402285754123717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel run-time method for significantly reducing the accuracy
loss associated with quantizing BERT-like models to 8-bit integers. Existing
methods for quantizing models either modify the training procedure,or they
require an additional calibration step to adjust parameters that also requires
a selected held-out dataset. Our method permits taking advantage of
quantization without the need for these adjustments. We present results on
several NLP tasks demonstrating the usefulness of this technique.
- Abstract(参考訳): bert様モデルを8ビット整数に量子化する際の精度損失を著しく低減する新しい実行時間法を提案する。
モデルの定量化には、トレーニング手順を変更するか、選択された保持データセットを必要とするパラメータを調整するための追加のキャリブレーションステップが必要となる。
これらの調整を必要とせずに量子化を利用できる。
本手法の有用性を示すいくつかのNLPタスクについて報告する。
関連論文リスト
- Rethinking Post-Training Quantization: Introducing a Statistical Pre-Calibration Approach [22.25748046511075]
ポストトレーニング量子化(PTQ)技術は、精度を維持するためにキャリブレーションプロセスに依存する。
本稿では,キャリブレーションに基づくPTQ手法の先駆者と見なせる重み適応型PTQ法を提案する。
提案手法は,最も一般的なキャリブレーションに基づくPTQ法と同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2025-01-15T19:44:15Z) - QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven
Fine Tuning [16.50084447690437]
この研究は、これらの精度低下の原因を明らかにし、量子化フレンドリな微調整法である textbfQuantTune を提案している。
提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-03-11T08:09:30Z) - A Study of Quantisation-aware Training on Time Series Transformer Models
for Resource-constrained FPGAs [19.835810073852244]
本研究では,時系列トランスフォーマーモデルにおける量子化対応トレーニング(QAT)について検討する。
そこで本研究では,QAT相における対称スキームと非対称スキームを動的に選択する適応量子化手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T08:25:03Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - Attention Round for Post-Training Quantization [0.9558392439655015]
本稿では,アテンションラウンドと呼ばれる新しい定量化手法を提案する。
異なる量子化値にマッピングされる確率は、量子化値とwの間の距離と負に相関し、ガウス函数と崩壊する。
ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は 1,024 のトレーニングデータと 10 分しか必要としない。
論文 参考訳(メタデータ) (2022-07-07T05:04:21Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。