論文の概要: 1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit
- arxiv url: http://arxiv.org/abs/2408.14267v1
- Date: Mon, 26 Aug 2024 13:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:51:27.179299
- Title: 1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit
- Title(参考訳): 1ビットFQT:完全量子化トレーニングの限界を1ビットに
- Authors: Chang Gao, Jianfei Chen, Kang Zhao, Jiaqi Wang, Liping Jing,
- Abstract要約: フル量子化トレーニング(FQT)は、アクティベーション、ウェイト、勾配をより低い精度に定量化することで、ディープニューラルネットワークのトレーニングを加速する。
1ビットFQTでFQTの極限(達成可能な最低精度)を探索する試みを行う。
- 参考スコア(独自算出の注目度): 41.993927897814785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully quantized training (FQT) accelerates the training of deep neural networks by quantizing the activations, weights, and gradients into lower precision. To explore the ultimate limit of FQT (the lowest achievable precision), we make a first attempt to 1-bit FQT. We provide a theoretical analysis of FQT based on Adam and SGD, revealing that the gradient variance influences the convergence of FQT. Building on these theoretical results, we introduce an Activation Gradient Pruning (AGP) strategy. The strategy leverages the heterogeneity of gradients by pruning less informative gradients and enhancing the numerical precision of remaining gradients to mitigate gradient variance. Additionally, we propose Sample Channel joint Quantization (SCQ), which utilizes different quantization strategies in the computation of weight gradients and activation gradients to ensure that the method is friendly to low-bitwidth hardware. Finally, we present a framework to deploy our algorithm. For fine-tuning VGGNet-16 and ResNet-18 on multiple datasets, our algorithm achieves an average accuracy improvement of approximately 6%, compared to per-sample quantization. Moreover, our training speedup can reach a maximum of 5.13x compared to full precision training.
- Abstract(参考訳): フル量子化トレーニング(FQT)は、アクティベーション、ウェイト、勾配をより低い精度に定量化することで、ディープニューラルネットワークのトレーニングを加速する。
FQTの極限(達成可能な最小精度)を探索するため、1ビットFQTの最初の試みを行う。
本稿では、AdamとSGDに基づくFQTの理論解析を行い、勾配分散がFQTの収束に影響を与えることを明らかにした。
これらの理論的結果に基づいて,アクティベーション・グラディエント・プルーニング(AGP)戦略を導入する。
この戦略は、情報的勾配を減らし、勾配の分散を緩和するために残りの勾配の数値的精度を高めることによって勾配の不均一性を利用する。
さらに、重み勾配とアクティベーション勾配の計算に異なる量子化戦略を利用するサンプルチャネルジョイント量子化(SCQ)を提案し、低ビット幅ハードウェアとの親和性を確保する。
最後に,アルゴリズムをデプロイするフレームワークを提案する。
複数のデータセット上でVGGNet-16とResNet-18を微調整する場合,本アルゴリズムはサンプルごとの量子化に比べて平均精度が6%向上する。
さらに、トレーニングのスピードアップは、完全精度のトレーニングに比べて最大5.13倍に達する。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - MetaGrad: Adaptive Gradient Quantization with Hypernetworks [46.55625589293897]
量子化対応トレーニング(QAT)は、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。
本稿では,ハイパーネットワークを用いた次のトレーニングの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。
CNNネットワークアーキテクチャの異なるCIFAR-10データセットに対する様々な実験により、我々のハイパーネットワークに基づくアプローチは、勾配量子化ノイズの負の効果を効果的に低減できることを示した。
論文 参考訳(メタデータ) (2023-03-04T07:26:34Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文 参考訳(メタデータ) (2022-07-20T06:27:06Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Distribution Adaptive INT8 Quantization for Training CNNs [12.708068468737286]
本稿では,畳み込みニューラルネットワークのための新しいINT8量子化学習フレームワークを提案する。
具体的には, 層幅勾配がチャネル次元に沿って複数の分布を含むという観測に基づいて, 勾配の量子化にグラディエントベクトル化量子化を用いる。
次に、量子化誤差を最小化する際に、勾配の等級を考慮に入れ、マグニチュード対応のクリッピング戦略を導入する。
論文 参考訳(メタデータ) (2021-02-09T11:58:10Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。