論文の概要: Low Error-Rate Approximate Multiplier Design for DNNs with
Hardware-Driven Co-Optimization
- arxiv url: http://arxiv.org/abs/2210.03916v1
- Date: Sat, 8 Oct 2022 05:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 19:24:57.115241
- Title: Low Error-Rate Approximate Multiplier Design for DNNs with
Hardware-Driven Co-Optimization
- Title(参考訳): ハードウェア駆動協調最適化によるDNNの低誤差近似乗算器設計
- Authors: Yao Lu, Jide Zhang, Su Zheng, Zhen Li, Lingli Wang
- Abstract要約: 2つの近似3*3乗算器が提案され、ASAP-7nmプロセスライブラリの合成結果は、面積を31.38%、36.17%削減できることを正当化している。
それらは2*2乗算器で集約され、DNN重みの分布に基づいて低い誤差率の8*8乗算器を生成する。
ハードウェア駆動型ソフトウェアによる協調最適化手法を提案し,再学習によるDNNの精度向上を図る。
- 参考スコア(独自算出の注目度): 5.547686929207811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, two approximate 3*3 multipliers are proposed and the synthesis
results of the ASAP-7nm process library justify that they can reduce the area
by 31.38% and 36.17%, and the power consumption by 36.73% and 35.66% compared
with the exact multiplier, respectively. They can be aggregated with a 2*2
multiplier to produce an 8*8 multiplier with low error rate based on the
distribution of DNN weights. We propose a hardware-driven software
co-optimization method to improve the DNN accuracy by retraining. Based on the
proposed two approximate 3-bit multipliers, three approximate 8-bit multipliers
with low error-rate are designed for DNNs. Compared with the exact 8-bit
unsigned multiplier, our design can achieve a significant advantage over other
approximate multipliers on the public dataset.
- Abstract(参考訳): 本稿では,2つの近似3*3乗算器を提案し,asap-7nmプロセスライブラリの合成結果から,面積を31.38%,36.17%,消費電力を36.73%,35.66%削減できることを確認した。
それらは2*2乗算器で集約され、DNN重みの分布に基づいて低い誤差率の8*8乗算器を生成する。
ハードウェア駆動型ソフトウェアによる協調最適化手法を提案し,再学習によるDNNの精度向上を図る。
提案する2つの近似3ビット乗算器に基づいて、誤差率の低い近似8ビット乗算器をdnn用に設計する。
正確な8ビット符号なし乗算器と比較すると、我々の設計は公開データセット上の他の近似乗算器よりも大きな利点を得ることができる。
関連論文リスト
- LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Binary Neural Networks as a general-propose compute paradigm for
on-device computer vision [0.0]
本稿では,1)ハードウェアフレンドリ性のための最小限の推論スキーム,2)高精度な過剰パラメータ化トレーニングスキーム,3)異なる視覚タスクに適応するための簡単な手順からなるBNNフレームワークを提案する。
このフレームワークは、分類、検出、セグメンテーション、超解像、マッチングのための速度-vs精度トレードオフにおいて8ビットの量子化を上回ります。
我々のBNNは、2.8-7$times$8ビットより少ない実行サイクル、2.1-2.7$times$代替BNNの設計より少ないサイクルを約束している。
論文 参考訳(メタデータ) (2022-02-08T08:38:22Z) - HEAM: High-Efficiency Approximate Multiplier Optimization for Deep
Neural Networks [5.997295917769142]
我々の乗算器は、DNNにおいて最もよく再現された近似乗算器よりも最大50.24%高い精度が得られる。
正確な乗算器と比較して、乗算器は面積、消費電力、遅延をそれぞれ44.94%、47.63%、および16.78%削減する。
論文 参考訳(メタデータ) (2022-01-20T07:10:48Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Positive/Negative Approximate Multipliers for DNN Accelerators [3.1921317895626493]
本稿では,重みを近似乗算器の適切なモードにマッピングするフィルタ指向近似法を提案する。
提案手法では,4つの異なるデータセット上で平均7つのNNで18.33%のエネルギーゲインを達成し,最大精度の低下は1%に留まった。
論文 参考訳(メタデータ) (2021-07-20T09:36:24Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Ax-BxP: Approximate Blocked Computation for Precision-Reconfigurable
Deep Neural Network Acceleration [3.7371886886933487]
ディープニューラルネットワーク(DNN)の計算とストレージ要件を最適化する一般的な手法として、精度スケーリングが登場した。
超低精度(sub-8ビット)DNNの作成への取り組みは、与えられたネットワークレベルの精度を達成するために必要な最小精度がネットワーク間で大きく異なることを示唆している。
ビットシリアルハードウェアのような以前の提案は高いオーバーヘッドを発生させ、より精度の低い利点を著しく減らした。
論文 参考訳(メタデータ) (2020-11-25T20:00:38Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - SIMDive: Approximate SIMD Soft Multiplier-Divider for FPGAs with Tunable
Accuracy [3.4154033825543055]
本稿では,新しい乗算器とチューナブルな分割器に基づくSIMDアーキテクチャを初めて提示する。
提案したハイブリッドアーキテクチャはMitchellのアルゴリズムを実装し、8ビットから32ビットの精度変数をサポートする。
論文 参考訳(メタデータ) (2020-11-02T17:40:44Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。