論文の概要: Towards Cheaper Inference in Deep Networks with Lower Bit-Width
Accumulators
- arxiv url: http://arxiv.org/abs/2401.14110v1
- Date: Thu, 25 Jan 2024 11:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:41:38.061345
- Title: Towards Cheaper Inference in Deep Networks with Lower Bit-Width
Accumulators
- Title(参考訳): 低ビット幅集積器を用いた深部ネットワークのチーパ推論に向けて
- Authors: Yaniv Blumenfeld, Itay Hubara, Daniel Soudry
- Abstract要約: 現在のハードウェアは依然として高精度なコア操作に依存している。
これは、これまでのところ、低精度のアキュムレータの使用が性能を著しく低下させたためである。
本稿では,12ドル(約1万2000円)の安価なアキュムレータを初めて活用するために,高品質DNNの訓練と微調整を行うための簡単な方法を提案する。
- 参考スコア(独自算出の注目度): 25.100092698906437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The majority of the research on the quantization of Deep Neural Networks
(DNNs) is focused on reducing the precision of tensors visible by high-level
frameworks (e.g., weights, activations, and gradients). However, current
hardware still relies on high-accuracy core operations. Most significant is the
operation of accumulating products. This high-precision accumulation operation
is gradually becoming the main computational bottleneck. This is because, so
far, the usage of low-precision accumulators led to a significant degradation
in performance. In this work, we present a simple method to train and fine-tune
high-end DNNs, to allow, for the first time, utilization of cheaper, $12$-bits
accumulators, with no significant degradation in accuracy. Lastly, we show that
as we decrease the accumulation precision further, using fine-grained gradient
approximations can improve the DNN accuracy.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の量子化に関する研究の大部分は、高レベルのフレームワーク(ウェイト、アクティベーション、勾配など)で見えるテンソルの精度の低減に重点を置いている。
しかし、現在のハードウェアは高い精度のコア操作に依存している。
最も重要なものは蓄積品の運用である。
この高精度累積演算は、徐々に主要な計算ボトルネックになりつつある。
これは、これまで低精度アキュムレータの使用が性能を著しく低下させたためである。
そこで本研究では,より安価で12ドルビットのアキュムレータを初めて利用し,精度を低下させることなく,高精度なdnnを訓練し,微調整する簡単な手法を提案する。
最後に,蓄積精度をさらに下げるにつれて,粒度勾配近似を用いることでDNNの精度が向上することを示した。
関連論文リスト
- Using Half-Precision for GNN Training [1.7117325236320966]
ディープラーニングのための半精度ベースGNNシステムであるHalfGNNを紹介する。
新しいベクトル演算によりデータ負荷と削減性能が向上し、離散化された SpMM は値オーバーフローを克服する。
HalfGNNは、GAT、GCN、GINのDGL(float-based)のトレーニング時間の平均2.30倍のスピードアップを実現し、同様の精度を実現し、2.67倍のメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-11-02T02:14:02Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - LightNorm: Area and Energy-Efficient Batch Normalization Hardware for
On-Device DNN Training [0.31806743741013654]
我々はLightNormという名前の非常に効率的なバッチ正規化とそのハードウェアモジュールを提案する。
より詳しくは、i)低ビット精度、i)レンジバッチ正規化、iii)ブロック浮動小数点の3つの近似手法を融合する。
論文 参考訳(メタデータ) (2022-11-04T18:08:57Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。