論文の概要: Ultra-low Precision Multiplication-free Training for Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2302.14458v1
- Date: Tue, 28 Feb 2023 10:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:00:38.255183
- Title: Ultra-low Precision Multiplication-free Training for Deep Neural
Networks
- Title(参考訳): 深部ニューラルネットワークの超低精度乗算学習
- Authors: Chang Liu, Rui Zhang, Xishan Zhang, Yifan Hao, Zidong Du, Xing Hu,
Ling Li, Qi Guo
- Abstract要約: 訓練において、線形層はエネルギーを消費する全精度乗算の激しい使用のために最もエネルギーを消費する。
本稿では、FP32の乗算を全て置き換えるために、適応層スケールポット量子化(ALS-POTQ)法と乗算自由MAC(MF-MAC)法を提案する。
トレーニング方式では, 上記の手法はすべて余剰乗算を導入しないので, トレーニング中の線形層におけるエネルギー消費量の最大95.8%を削減できる。
- 参考スコア(独自算出の注目度): 20.647925576138807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training for deep neural networks (DNNs) demands immense energy
consumption, which restricts the development of deep learning as well as
increases carbon emissions. Thus, the study of energy-efficient training for
DNNs is essential. In training, the linear layers consume the most energy
because of the intense use of energy-consuming full-precision (FP32)
multiplication in multiply-accumulate (MAC). The energy-efficient works try to
decrease the precision of multiplication or replace the multiplication with
energy-efficient operations such as addition or bitwise shift, to reduce the
energy consumption of FP32 multiplications. However, the existing
energy-efficient works cannot replace all of the FP32 multiplications during
both forward and backward propagation with low-precision energy-efficient
operations. In this work, we propose an Adaptive Layer-wise Scaling PoT
Quantization (ALS-POTQ) method and a Multiplication-Free MAC (MF-MAC) to
replace all of the FP32 multiplications with the INT4 additions and 1-bit XOR
operations. In addition, we propose Weight Bias Correction and Parameterized
Ratio Clipping techniques for stable training and improving accuracy. In our
training scheme, all of the above methods do not introduce extra
multiplications, so we reduce up to 95.8% of the energy consumption in linear
layers during training. Experimentally, we achieve an accuracy degradation of
less than 1% for CNN models on ImageNet and Transformer model on the WMT En-De
task. In summary, we significantly outperform the existing methods for both
energy efficiency and accuracy.
- Abstract(参考訳): 深層ニューラルネットワーク(dnn)のトレーニングでは、大量のエネルギー消費が要求されるため、ディープラーニングの開発と二酸化炭素排出量の増加が制限される。
したがって、DNNのエネルギー効率向上に関する研究は不可欠である。
訓練において、線形層はエネルギー消費フル精度(FP32)の乗算を乗算(MAC)に強く利用するため、最もエネルギーを消費する。
エネルギー効率の良い研究は、乗算の精度を下げるか、加算やビットシフトなどのエネルギー効率の高い演算に置き換え、FP32乗算のエネルギー消費を減少させようとする。
しかし、既存のエネルギー効率の高い作業は、フォワードおよび後方伝播中の全てのFP32乗法を低精度のエネルギー効率で置き換えることはできない。
本研究では,FP32 の乗算を INT4 の追加と 1-bit XOR 演算に置き換えるため,適応層スケール PoT 量子化 (ALS-POTQ) 法と乗算自由MAC (MF-MAC) 法を提案する。
さらに、安定トレーニングと精度向上のための重み付きバイアス補正およびパラメータ化比クリッピング手法を提案する。
トレーニング手法では, 上記の手法はすべて余剰乗算を導入しないので, トレーニング中の線形層におけるエネルギー消費量の最大95.8%を削減できる。
実験により、WMT En-DeタスクのImageNetおよびTransformerモデルにおいて、CNNモデルに対して1%未満の精度劣化を実現する。
要約すると、エネルギー効率と精度の両面で既存の手法よりも優れている。
関連論文リスト
- Hadamard Domain Training with Integers for Class Incremental Quantized
Learning [1.4416751609100908]
継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。
本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。
行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
論文 参考訳(メタデータ) (2023-10-05T16:52:59Z) - Minimizing Energy Consumption of Deep Learning Models by Energy-Aware
Training [26.438415753870917]
モデル学習におけるエネルギー消費の削減を目的とした勾配に基づくアルゴリズムであるEATを提案する。
エネルギーを考慮したトレーニングアルゴリズムであるEATは、分類性能とエネルギー効率のトレードオフを良くしてネットワークをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2023-07-01T15:44:01Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - Energy awareness in low precision neural networks [41.69995577490698]
電力消費は、エンドデバイスにディープニューラルネットワーク(DNN)を配置する際の大きな障害である。
低消費電力の固定精度変種を用いて全精度ネットワークを近似するための簡単なアプローチであるPANNを提案する。
従来の手法とは対照的に、PANNは2ビット量子化変量器のパワーバッジで作業する場合でも、ネットワークの完全精度バージョンであるW.r.t.の精度をわずかに低下させるだけである。
論文 参考訳(メタデータ) (2022-02-06T14:44:55Z) - On the Tradeoff between Energy, Precision, and Accuracy in Federated
Quantized Neural Networks [68.52621234990728]
無線ネットワーク上でのフェデレーション学習(FL)は、精度、エネルギー効率、精度のバランスをとる必要がある。
本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現できる量子化FLフレームワークを提案する。
我々のフレームワークは標準的なFLモデルと比較してエネルギー消費量を最大53%削減できる。
論文 参考訳(メタデータ) (2021-11-15T17:00:03Z) - Positive/Negative Approximate Multipliers for DNN Accelerators [3.1921317895626493]
本稿では,重みを近似乗算器の適切なモードにマッピングするフィルタ指向近似法を提案する。
提案手法では,4つの異なるデータセット上で平均7つのNNで18.33%のエネルギーゲインを達成し,最大精度の低下は1%に留まった。
論文 参考訳(メタデータ) (2021-07-20T09:36:24Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - Bit Error Robustness for Energy-Efficient DNN Accelerators [93.58572811484022]
本稿では、ロバストな固定点量子化、重み切り、ランダムビット誤り訓練(RandBET)の組み合わせにより、ランダムビット誤りに対するロバスト性を向上することを示す。
これは低電圧動作と低精度量子化の両方から高エネルギーの節約につながる。
論文 参考訳(メタデータ) (2020-06-24T18:23:10Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。