論文の概要: On the Distribution, Sparsity, and Inference-time Quantization of
Attention Values in Transformers
- arxiv url: http://arxiv.org/abs/2106.01335v1
- Date: Wed, 2 Jun 2021 17:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:30:22.600169
- Title: On the Distribution, Sparsity, and Inference-time Quantization of
Attention Values in Transformers
- Title(参考訳): 変圧器のアテンション値の分布, 疎性および推定時間量子化について
- Authors: Tianchu Ji, Shraddhan Jain, Michael Ferdman, Peter Milder, H. Andrew
Schwartz, Niranjan Balasubramanian
- Abstract要約: NLPタスクに必要な典型的な注意値の全範囲について検討する。
注意値の80%近くは、最小限(1.0%$)の精度でゼロにプルーニングできる。
我々は,このプルーニング手法と組み合わせて,注意値を3ビット形式に定量化することで,微調整されたRoBERTaによる質問応答の精度を0.8%低下させることができた。
- 参考スコア(独自算出の注目度): 13.401707395755746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How much information do NLP tasks really need from a transformer's attention
mechanism at application-time (inference)? From recent work, we know that there
is sparsity in transformers and that the floating-points within its computation
can be discretized to fewer values with minimal loss to task accuracies.
However, this requires retraining or even creating entirely new models, both of
which can be expensive and carbon-emitting. Focused on optimizations that do
not require training, we systematically study the full range of typical
attention values necessary. This informs the design of an inference-time
quantization technique using both pruning and log-scaled mapping which produces
only a few (e.g. $2^3$) unique values. Over the tasks of question answering and
sentiment analysis, we find nearly 80% of attention values can be pruned to
zeros with minimal ($< 1.0\%$) relative loss in accuracy. We use this pruning
technique in conjunction with quantizing the attention values to only a 3-bit
format, without retraining, resulting in only a 0.8% accuracy reduction on
question answering with fine-tuned RoBERTa.
- Abstract(参考訳): NLPタスクは、アプリケーション時間(推論)におけるトランスフォーマーの注意機構から本当にどのくらいの情報が必要なのか?
最近の研究から, 変圧器にはスパーシリティがあり, 計算中の浮動小数点を最小限の精度で最小限の値に識別できることが分かっている。
しかし、これは全く新しいモデルを作り直すことさえ必要であり、どちらも高価で二酸化炭素を排出する可能性がある。
トレーニングを必要としない最適化に重点を置き,必要な注意値の全範囲を体系的に検討した。
これはプルーニングとログスケールマッピングの両方を用いて、少数の(例)しか生成しない推論時間量子化手法の設計を通知する。
2^3$)ユニークな値。
質問応答と感情分析のタスクでは、注意値の80%近くを最小(<1.0\%$)の相対的損失でゼロにプルーピングできることがわかった。
我々は,このプルーニング手法と組み合わせて,注意値を3ビット形式に定量化することで,微調整されたRoBERTaによる質問応答の精度を0.8%低下させることができた。
関連論文リスト
- Sparse Binary Transformers for Multivariate Time Series Modeling [1.3965477771846404]
軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
論文 参考訳(メタデータ) (2023-08-09T00:23:04Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z) - MARViN -- Multiple Arithmetic Resolutions Vacillating in Neural Networks [0.0]
本稿では,情報理論に基づく時間内精度スイッチングを用いた新しい量子化トレーニング戦略であるMARViNを紹介する。
我々は,AlexNet/ResNetの平均劣化精度を-0.075%に制限しながら,float32ベースと比較して平均1.86の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-28T16:57:05Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - How Low Can We Go: Trading Memory for Error in Low-Precision Training [52.94003953419242]
低精度算術は、少ないエネルギー、少ないメモリ、少ない時間でディープラーニングモデルを訓練する。
私たちは貯金の代償を支払っている: 精度の低い方がラウンドオフエラーが大きくなり、したがって予測エラーが大きくなる可能性がある。
私たちはメタラーニングのアイデアを借りて、メモリとエラーのトレードオフを学びます。
論文 参考訳(メタデータ) (2021-06-17T17:38:07Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文 参考訳(メタデータ) (2020-02-08T04:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。