論文の概要: Mixed Non-linear Quantization for Vision Transformers
- arxiv url: http://arxiv.org/abs/2407.18437v1
- Date: Fri, 26 Jul 2024 00:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:49:32.060939
- Title: Mixed Non-linear Quantization for Vision Transformers
- Title(参考訳): ビジョン変換器の混合非線形量子化
- Authors: Gihwan Kim, Jemin Lee, Sihyeong Park, Yongin Kwon, Hyungshin Kim,
- Abstract要約: 本研究では,SQNR差分法による層次量子化感度を考慮した混合非線形量子化を提案する。
I-BERT, FQ-ViT, I-ViT は,ViT, DeiT, Swin の各モデルに対して8ビット, 6ビット設定で優れる。
- 参考スコア(独自算出の注目度): 12.53195689814695
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The majority of quantization methods have been proposed to reduce the model size of Vision Transformers, yet most of them have overlooked the quantization of non-linear operations. Only a few works have addressed quantization for non-linear operations, but they applied a single quantization method across all non-linear operations. We believe that this can be further improved by employing a different quantization method for each non-linear operation. Therefore, to assign the most error-minimizing quantization method from the known methods to each non-linear layer, we propose a mixed non-linear quantization that considers layer-wise quantization sensitivity measured by SQNR difference metric. The results show that our method outperforms I-BERT, FQ-ViT, and I-ViT in both 8-bit and 6-bit settings for ViT, DeiT, and Swin models by an average of 0.6%p and 19.6%p, respectively. Our method outperforms I-BERT and I-ViT by 0.6%p and 20.8%p, respectively, when training time is limited. We plan to release our code at https://gitlab.com/ones-ai/mixed-non-linear-quantization.
- Abstract(参考訳): 量子化法の大部分はビジョントランスフォーマーのモデルサイズを減らすために提案されているが、その多くは非線形演算の量子化を見逃している。
非線形演算に対する量子化に対処した研究はごくわずかであるが、彼らはすべての非線形演算に対して単一の量子化法を適用した。
非線形演算毎に異なる量子化法を用いることにより、これをさらに改善できると考えている。
そこで本研究では,SQNR差分法による層次量子化感度を考慮に入れた混合非線形量子化法を提案する。
その結果,ViT,DeiT,Swinの各モデルに対して,平均0.6%,FQ-ViT,I-ViTが8ビット,DiT,Swinでは19.6%,I-ViTは8ビットでそれぞれ優れていた。
トレーニング時間が制限された場合,I-BERTとI-ViTをそれぞれ0.6%,20.8%で上回った。
コードをhttps://gitlab.com/ones-ai/mixed-non-linear-quantizationでリリースする予定です。
関連論文リスト
- OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking
Neural Networks [20.473852621915956]
スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法を提案する。
MINTは膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。
実験結果から,本手法は実精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-16T23:38:35Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - PTQ4ViT: Post-training quantization for vision transformers with twin uniform quantization [12.136898590792754]
視覚変換器における量子化の問題を分析する。
そこで本研究では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。
実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。
論文 参考訳(メタデータ) (2021-11-24T06:23:06Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization [9.062897838978955]
様々な訓練後の量子一様化法は通常凸最適化に基づいている。
提案手法は,特に低量子化の場合,高いモデル精度を示す。
論文 参考訳(メタデータ) (2021-05-05T05:14:22Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。