論文の概要: BMPQ: Bit-Gradient Sensitivity Driven Mixed-Precision Quantization of
DNNs from Scratch
- arxiv url: http://arxiv.org/abs/2112.13843v1
- Date: Fri, 24 Dec 2021 03:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-02 08:18:10.167647
- Title: BMPQ: Bit-Gradient Sensitivity Driven Mixed-Precision Quantization of
DNNs from Scratch
- Title(参考訳): BMPQ:スクラッチからのDNNのビット勾配感度駆動混合精度量子化
- Authors: Souvik Kundu, Shikai Wang, Qirui Sun, Peter A. Beerel, Massoud Pedram
- Abstract要約: 本稿では、ビット勾配を用いて層感度を分析し、混合精度の量子化モデルを生成する学習手法であるBMPQを提案する。
トレーニングを1回行う必要があるが、トレーニング済みのベースラインは必要ない。
ベースラインのFP-32モデルと比較して、BMPQは15.4倍少ないパラメータビットを持つモデルの精度は無視できる。
- 参考スコア(独自算出の注目度): 11.32458063021286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large DNNs with mixed-precision quantization can achieve ultra-high
compression while retaining high classification performance. However, because
of the challenges in finding an accurate metric that can guide the optimization
process, these methods either sacrifice significant performance compared to the
32-bit floating-point (FP-32) baseline or rely on a compute-expensive,
iterative training policy that requires the availability of a pre-trained
baseline. To address this issue, this paper presents BMPQ, a training method
that uses bit gradients to analyze layer sensitivities and yield
mixed-precision quantized models. BMPQ requires a single training iteration but
does not need a pre-trained baseline. It uses an integer linear program (ILP)
to dynamically adjust the precision of layers during training, subject to a
fixed hardware budget. To evaluate the efficacy of BMPQ, we conduct extensive
experiments with VGG16 and ResNet18 on CIFAR-10, CIFAR-100, and Tiny-ImageNet
datasets. Compared to the baseline FP-32 models, BMPQ can yield models that
have 15.4x fewer parameter bits with a negligible drop in accuracy. Compared to
the SOTA "during training", mixed-precision training scheme, our models are
2.1x, 2.2x, and 2.9x smaller, on CIFAR-10, CIFAR-100, and Tiny-ImageNet,
respectively, with an improved accuracy of up to 14.54%.
- Abstract(参考訳): 混合精度量子化を持つ大規模DNNは、高い分類性能を維持しながら超高圧縮を実現することができる。
しかし、最適化プロセスの指針となる正確なメトリックを見つけることの難しさから、これらの手法は32ビット浮動小数点 (FP-32) ベースラインと比較して大きなパフォーマンスを犠牲にするか、事前訓練されたベースラインの可用性を必要とする計算的かつ反復的なトレーニングポリシーに依存している。
この問題に対処するため,BMPQはビット勾配を用いて層感度を分析し,混合精度の量子化モデルを生成する訓練手法である。
BMPQは単一のトレーニングイテレーションを必要とするが、トレーニング済みのベースラインは必要ない。
整数線形プログラム(ILP)を使用して、ハードウェア予算の固定の下で、トレーニング中にレイヤーの精度を動的に調整する。
BMPQの有効性を評価するため,CIFAR-10,CIFAR-100,Tiny-ImageNetデータセット上でVGG16,ResNet18を用いて広範囲に実験を行った。
ベースラインのFP-32モデルと比較して、BMPQは15.4倍少ないパラメータビットを持つモデルの精度は無視できる。
sota "during training" と比較すると,cifar-10,cifar-100,tiny-imagenetでは2.1倍,2.2倍,2.9倍小さく,精度は最大14.54%向上した。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Efficient and Robust Quantization-aware Training via Adaptive Coreset Selection [38.23587031169402]
QAT(Quantization-Aware Training)は、重みとアクティベーションの冗長性を低減するための代表的なモデル圧縮手法である。
既存のQATメソッドの多くは、データセット全体のエンドツーエンドのトレーニングを必要とします。
トレーニング中の各試料の重要性を定量化するために, 量化重量の損失と勾配の分析に基づく2つの指標を提案する。
論文 参考訳(メタデータ) (2023-06-12T16:20:36Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks [2.666640112616559]
ニューラルネットワークモデルのイントレーニング量子化手法を提案する。
本手法は,混合精度モデルの学習中に各層に対するビット幅を計算する。
VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットの実験を行います。
論文 参考訳(メタデータ) (2021-01-12T09:01:44Z) - Revisiting BFloat16 Training [30.99618783594963]
最先端の汎用的低精度トレーニングアルゴリズムでは、16ビットと32ビットの精度が混在している。
ディープラーニングアクセラレータは、16ビットと32ビットの浮動小数点ユニットの両方をサポートせざるを得ない。
論文 参考訳(メタデータ) (2020-10-13T05:38:07Z) - Search What You Want: Barrier Panelty NAS for Mixed Precision
Quantization [51.26579110596767]
混合精度量子化のための新しいバリアペナルティベースNAS(BP-NAS)を提案する。
BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて芸術の新たな状態を設定する
論文 参考訳(メタデータ) (2020-07-20T12:00:48Z) - Multi-Precision Policy Enforced Training (MuPPET): A precision-switching
strategy for quantised fixed-point training of CNNs [13.83645579871775]
大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされる。
この研究は、複数の精度を利用するマルチレベルアプローチを採用することで、定量化トレーニングの境界を押し上げる。
MuPPETは、トレーニング時のスピードアップを最大1.84$times$、ネットワーク全体の平均スピードアップを1.58$times$とすることで、通常の完全精度トレーニングと同じ精度を達成する。
論文 参考訳(メタデータ) (2020-06-16T10:14:36Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - ScopeFlow: Dynamic Scene Scoping for Optical Flow [94.42139459221784]
我々は,光流の一般的なトレーニングプロトコルを変更することを提案する。
この改善は、挑戦的なデータをサンプリングする際のバイアスを観察することに基づいている。
トレーニングプロトコルでは,正規化と拡張の双方が減少することが判明した。
論文 参考訳(メタデータ) (2020-02-25T09:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。