論文の概要: Improving Post Training Neural Quantization: Layer-wise Calibration and
Integer Programming
- arxiv url: http://arxiv.org/abs/2006.10518v2
- Date: Mon, 14 Dec 2020 15:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 10:08:25.512598
- Title: Improving Post Training Neural Quantization: Layer-wise Calibration and
Integer Programming
- Title(参考訳): ポストトレーニングニューラル量子化の改善:レイヤワイド校正と整数プログラミング
- Authors: Itay Hubara, Yury Nahshan, Yair Hanani, Ron Banner, Daniel Soudry
- Abstract要約: トレーニング後の量子化法は簡単に使用でき、小さなラベルなしキャリブレーションセットしか必要としない。
ここでは,各層の量子化誤差を最小化することにより,8ビット障壁を破ることを目的とする。
精度の低下やモデル圧縮を抑えながら、各層に最適なビット幅を割り当てる方法を示す。
- 参考スコア(独自算出の注目度): 33.46875527206122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lately, post-training quantization methods have gained considerable
attention, as they are simple to use, and require only a small unlabeled
calibration set. This small dataset cannot be used to fine-tune the model
without significant over-fitting. Instead, these methods only use the
calibration set to set the activations' dynamic ranges. However, such methods
always resulted in significant accuracy degradation, when used below 8-bits
(except on small datasets). Here we aim to break the 8-bit barrier. To this
end, we minimize the quantization errors of each layer separately by optimizing
its parameters over the calibration set. We empirically demonstrate that this
approach is: (1) much less susceptible to over-fitting than the standard
fine-tuning approaches, and can be used even on a very small calibration set;
and (2) more powerful than previous methods, which only set the activations'
dynamic ranges. Furthermore, we demonstrate how to optimally allocate the
bit-widths for each layer, while constraining accuracy degradation or model
compression by proposing a novel integer programming formulation. Finally, we
suggest model global statistics tuning, to correct biases introduced during
quantization. Together, these methods yield state-of-the-art results for both
vision and text models. For instance, on ResNet50, we obtain less than 1\%
accuracy degradation --- with 4-bit weights and activations in all layers, but
the smallest two. We open-sourced our code.
- Abstract(参考訳): 近年、訓練後の量子化法は、使用が簡単で、小さなラベルなしキャリブレーションセットを必要とするため、注目されている。
この小さなデータセットは、大きなオーバーフィットなしにモデルを微調整するために使用できません。
代わりに、これらのメソッドはアクティベーションのダイナミックレンジを設定するためにキャリブレーションセットのみを使用する。
しかし、そのような手法は8ビット以下の場合(小さなデータセットを除く)、常にかなりの精度の劣化をもたらす。
ここでは8ビット障壁を破る。
この目的のために,キャリブレーションセット上でパラメータを最適化することにより,各レイヤの量子化誤差を最小化する。
この手法は,(1)標準の微調整手法よりも過度に適合する可能性が少なく,かつ非常に小さなキャリブレーションセットでも使用できること,(2)アクティベーションのダイナミックレンジのみを設定する従来の方法よりも強力であること,などが実証的に実証されている。
さらに,新しい整数計画法の提案による精度劣化やモデル圧縮を制約しつつ,各層に対してビット幅を最適に割り当てる方法を示す。
最後に,量子化中に生じるバイアスを補正するために,モデルグローバル統計量チューニングを提案する。
これらの手法は、視覚モデルとテキストモデルの両方に最先端の結果をもたらす。
例えば、resnet50では、すべての層で4ビットの重みとアクティベーションを持つが、最小の2つでは1\%未満の精度低下が得られる。
コードをオープンソース化しました。
関連論文リスト
- The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Adaptive Low-Precision Training for Embeddings in Click-Through Rate
Prediction [36.605153166169224]
埋め込みテーブルは通常、クリックスルーレート(CTR)予測モデルにおいて巨大である。
我々は,低精度トレーニング(low-precision training)と呼ばれる,新しい量子化トレーニングパラダイムを定式化して,埋め込みをトレーニング段階から圧縮する。
CTRモデルでは,予測精度を犠牲にすることなく8ビット埋め込みのトレーニングに成功した。
論文 参考訳(メタデータ) (2022-12-12T07:19:14Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - Class-wise and reduced calibration methods [0.0]
キャリブレーションの削減により、元の問題をより単純なものに変換する方法を示す。
第2に,ニューラル崩壊という現象に基づいて,クラスワイドキャリブレーション手法を提案する。
この2つの手法を併用すると、予測とクラスごとの校正誤差を低減する強力なツールであるクラス単位での校正アルゴリズムが実現される。
論文 参考訳(メタデータ) (2022-10-07T17:13:17Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Least squares binary quantization of neural networks [19.818087225770967]
値が-1と1にマップされる二項量子化に焦点を当てる。
2ビット対1ビット量子化のパリト最適性に触発されて、証明可能な最小二乗誤差を持つ新しい2ビット量子化を導入する。
論文 参考訳(メタデータ) (2020-01-09T00:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。