論文の概要: Oscillation-free Quantization for Low-bit Vision Transformers
- arxiv url: http://arxiv.org/abs/2302.02210v3
- Date: Fri, 2 Jun 2023 05:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 11:34:26.353558
- Title: Oscillation-free Quantization for Low-bit Vision Transformers
- Title(参考訳): 低ビットビジョン変換器の無振動量子化
- Authors: Shih-Yang Liu, Zechun Liu, Kwang-Ting Cheng
- Abstract要約: 重み振動は量子化対応トレーニングの好ましくない副作用である。
本稿では,一般的な学習可能スケール法と比較して量子化を改善する3つの手法を提案する。
当社のアルゴリズムはImageNetの精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 36.64352091626433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight oscillation is an undesirable side effect of quantization-aware
training, in which quantized weights frequently jump between two quantized
levels, resulting in training instability and a sub-optimal final model. We
discover that the learnable scaling factor, a widely-used $\textit{de facto}$
setting in quantization aggravates weight oscillation. In this study, we
investigate the connection between the learnable scaling factor and quantized
weight oscillation and use ViT as a case driver to illustrate the findings and
remedies. In addition, we also found that the interdependence between quantized
weights in $\textit{query}$ and $\textit{key}$ of a self-attention layer makes
ViT vulnerable to oscillation. We, therefore, propose three techniques
accordingly: statistical weight quantization ($\rm StatsQ$) to improve
quantization robustness compared to the prevalent learnable-scale-based method;
confidence-guided annealing ($\rm CGA$) that freezes the weights with
$\textit{high confidence}$ and calms the oscillating weights; and
$\textit{query}$-$\textit{key}$ reparameterization ($\rm QKR$) to resolve the
query-key intertwined oscillation and mitigate the resulting gradient
misestimation. Extensive experiments demonstrate that these proposed techniques
successfully abate weight oscillation and consistently achieve substantial
accuracy improvement on ImageNet. Specifically, our 2-bit DeiT-T/DeiT-S
algorithms outperform the previous state-of-the-art by 9.8% and 7.7%,
respectively. Code and models are available at: https://github.com/nbasyl/OFQ.
- Abstract(参考訳): 重み振動は量子化対応トレーニングの望ましくない副作用であり、量子化された重みは2つの量子化レベルの間で頻繁にジャンプし、トレーニングの不安定性と準最適最終モデルをもたらす。
学習可能なスケーリング係数である$\textit{de facto}$の量子化設定は、重みの振動を増大させる。
本研究では,学習可能なスケーリング因子と量的重み振動との関係について検討し,vitをケースドライバとして活用し,その発見と改善について検討した。
さらに、量子化重みの相互依存性が$\textit{query}$と$\textit{key}$の自己アテンション層であることから、ViTは振動に弱いことが判明した。
そこで,本研究では, 統計的量量化($\rm StatsQ$)による量子化ロバスト性の向上と, 一般的な学習可能スケール法と比較しての信頼性向上($\rm CGA$)による重み付けを凍結し, 発振重みを緩和する($\textit{high confidence}$, $\textit{query}$-$\textit{key}$再パラメータ化($\rm QKR$)によるクエリキーの相互交叉振動の解消と, 結果の勾配推定の緩和を行う($\rm QKR$)3つの手法を提案する。
広汎な実験により、これらの手法は重量振動を緩和し、一貫して画像ネットの精度を向上することを示した。
具体的には、我々の2ビットのDeiT-T/DeiT-Sアルゴリズムは、それぞれ9.8%と7.7%で先行技術を上回っている。
コードとモデルは、https://github.com/nbasyl/ofqで入手できる。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Reclaiming Residual Knowledge: A Novel Paradigm to Low-Bit Quantization [41.94295877935867]
本稿では、畳み込みニューラルネットワーク(ConvNets)内のアーキテクチャ探索問題として最適量子化をフレーミングすることにより、低ビット(すなわち4ビット以下)量子化における新しいパラダイムを探求する。
textbfCoRaと呼ばれる我々のフレームワークは、低ランクアダプタの最適アーキテクチャを探索する。
textbfCoRaは、最先端の量子化対応トレーニングとトレーニング後の量子化ベースラインの両方に対して、同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-01T21:27:31Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven
Fine Tuning [16.50084447690437]
この研究は、これらの精度低下の原因を明らかにし、量子化フレンドリな微調整法である textbfQuantTune を提案している。
提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-03-11T08:09:30Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Overcoming Oscillations in Quantization-Aware Training [18.28657022169428]
量子化をシミュレートしたニューラルネットワークをトレーニングする場合、量子化された重みは、予想外の2つのグリッドポイント間で振動する。
その結果, バッチ正規化統計値の誤算により, 精度が著しく低下する可能性が示唆された。
トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:07:42Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。