論文の概要: Jumping through Local Minima: Quantization in the Loss Landscape of Vision Transformers
- arxiv url: http://arxiv.org/abs/2308.10814v3
- Date: Thu, 26 Sep 2024 15:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 14:40:04.691886
- Title: Jumping through Local Minima: Quantization in the Loss Landscape of Vision Transformers
- Title(参考訳): ローカル・ミニマを飛び抜ける:視覚変換器の失われた景観の量子化
- Authors: Natalia Frumkin, Dibakar Gope, Diana Marculescu,
- Abstract要約: Evol-Q は完全量子化された ViT-Base のトップ-1 の精度を 10.30%$,$0.78%$,$0.15%$ で$3$-bit,$4$-bit,$8$-bit で改善している。
私たちのコードはhttps://github.com/enyac-group/evol-q.comで公開されています。
- 参考スコア(独自算出の注目度): 10.435911386385383
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Quantization scale and bit-width are the most important parameters when considering how to quantize a neural network. Prior work focuses on optimizing quantization scales in a global manner through gradient methods (gradient descent \& Hessian analysis). Yet, when applying perturbations to quantization scales, we observe a very jagged, highly non-smooth test loss landscape. In fact, small perturbations in quantization scale can greatly affect accuracy, yielding a $0.5-0.8\%$ accuracy boost in 4-bit quantized vision transformers (ViTs). In this regime, gradient methods break down, since they cannot reliably reach local minima. In our work, dubbed Evol-Q, we use evolutionary search to effectively traverse the non-smooth landscape. Additionally, we propose using an infoNCE loss, which not only helps combat overfitting on the small calibration dataset ($1,000$ images) but also makes traversing such a highly non-smooth surface easier. Evol-Q improves the top-1 accuracy of a fully quantized ViT-Base by $10.30\%$, $0.78\%$, and $0.15\%$ for $3$-bit, $4$-bit, and $8$-bit weight quantization levels. Extensive experiments on a variety of CNN and ViT architectures further demonstrate its robustness in extreme quantization scenarios. Our code is available at https://github.com/enyac-group/evol-q
- Abstract(参考訳): 量子化スケールとビット幅は、ニューラルネットワークの量子化方法を考える上で最も重要なパラメータである。
先行研究は、勾配法 (gradient descent \& Hessian analysis) を通じて、グローバルな方法で量子化スケールを最適化することに焦点を当てている。
しかし、量子化スケールに摂動を適用すると、非常にジャグリングされ、非常に滑らかなテスト損失の風景が観察される。
実際、量子化スケールでの小さな摂動は精度に大きな影響を与え、4ビット量子化ビジョントランス (ViT) において0.5-0.8\%の精度向上をもたらす。
この体制では、勾配法は局所最小値に確実に到達できないため、崩壊する。
Evol-Qと呼ばれる我々の研究では、進化的探索を用いて非滑らかな風景を効果的に横断する。
さらに我々は,小キャリブレーションデータセット(1,000ドル画像)のオーバーフィッティングに有効であるだけでなく,そのような非滑らかな表面のトラバースを容易にするインフォネッセロスを提案する。
Evol-Q は完全量子化された ViT-Base のトップ-1 の精度を 10.30 %$,$0.78 %$,$0.15 %$ で3$-bit,$4$-bit,$8$-bit で改善している。
様々なCNNおよびViTアーキテクチャに関する大規模な実験は、極端量子化シナリオにおけるその堅牢性をさらに証明している。
私たちのコードはhttps://github.com/enyac-group/evol-qで利用可能です。
関連論文リスト
- FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Oscillation-free Quantization for Low-bit Vision Transformers [36.64352091626433]
重み振動は量子化対応トレーニングの好ましくない副作用である。
本稿では,一般的な学習可能スケール法と比較して量子化を改善する3つの手法を提案する。
当社のアルゴリズムはImageNetの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-02-04T17:40:39Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - PTQ4ViT: Post-training quantization for vision transformers with twin uniform quantization [12.136898590792754]
視覚変換器における量子化の問題を分析する。
そこで本研究では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。
実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。
論文 参考訳(メタデータ) (2021-11-24T06:23:06Z) - DISCO: accurate Discrete Scale Convolutions [2.1485350418225244]
スケールは、多くのビジョンタスクにおいて与えられた、乱雑な要因と見なされることが多い。そうすると、学習中により多くのデータを必要とする要因の1つである。
我々は,スケールの粒度とフィルタサイズが小さい問題に適用可能な,高精度なスケール等価畳み込みニューラルネットワーク(SE-CNN)を提案する。
論文 参考訳(メタデータ) (2021-06-04T21:48:09Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。