論文の概要: HEAM: High-Efficiency Approximate Multiplier Optimization for Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2201.08022v1
- Date: Thu, 20 Jan 2022 07:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 23:46:02.137812
- Title: HEAM: High-Efficiency Approximate Multiplier Optimization for Deep
Neural Networks
- Title(参考訳): heam:ディープニューラルネットワークの高効率近似マルチプライア最適化
- Authors: Su Zheng, Zhen Li, Yao Lu, Jingbo Gao, Jide Zhang, Lingli Wang
- Abstract要約: ディープニューラルネットワーク(DNN)は人工知能アプリケーションに広く応用されている。
レイテンシと消費電力の課題に対処する様々なソリューションが提案されている。
量子化の研究は計算コストを削減し、DNNの誤差耐性を示す。
- 参考スコア(独自算出の注目度): 5.171000466503903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) are widely applied to artificial intelligence
applications, achieving promising performance at the cost of massive
computation, large power consumption, and high latency. Diverse solutions have
been proposed to cope with the challenge of latency and power consumption,
including light-weight neural networks and efficient hardware accelerators.
Moreover, research on quantization reduces the cost of computation and shows
the error resiliency of DNNs. To improve the latency and power efficiency of
hardware accelerators by exploiting the error resiliency, we propose an
application-specific optimization method for the automatic design of
approximate multipliers for DNNs. The proposed method optimizes an approximate
multiplier by minimizing the error according to the probability distributions
extracted from DNNs. By applying the optimized approximate multiplier to a DNN,
we obtain 1.60%, 15.32%, and 20.19% higher accuracies than the best reproduced
approximate multiplier on the widely used MNIST, FashionMNIST, and CIFAR-10
datasets, respectively, with 12.17% smaller area, 23.38% less power
consumption, and 16.53% lower latency. Compared with an exact multiplier, the
optimized multiplier reduces the area, power consumption, and latency by
36.88%, 52.45%, and 26.63%, respectively. Applied to FPGA-based and ASIC-based
DNN accelerator modules, our approximate multiplier obtains low LUT utilization
and small area respectively with competitive max frequency and power
consumption, which shows the effectiveness of the proposed method in reducing
the hardware cost of DNN accelerators.
- Abstract(参考訳): ディープニューラルネットワーク(Deep Neural Network, DNN)は、人工知能アプリケーションに広く適用されており、膨大な計算、大規模な消費電力、高レイテンシのコストで、有望なパフォーマンスを達成する。
軽量ニューラルネットワークや効率的なハードウェアアクセラレータなど、レイテンシと消費電力の課題に対処する、さまざまなソリューションが提案されている。
さらに、量子化の研究は計算コストを削減し、DNNの誤差耐性を示す。
そこで本研究では,DNNの近似乗算器の自動設計のためのアプリケーション固有の最適化手法を提案する。
提案手法は,DNNから抽出した確率分布に基づいて誤差を最小化し,近似乗算器を最適化する。
最適化された近似乗算器をDNNに適用することにより、広く使われているMNIST、FashionMNIST、CIFAR-10データセットにおいて、それぞれ12.17%、消費電力23.38%、レイテンシ16.53%よりも1.60%、15.32%、20.19%高い精度が得られる。
正確な乗算器と比較して、最適化された乗算器は面積、消費電力、レイテンシをそれぞれ36.88%、52.45%、26.63%削減する。
fpga および asic ベースの dnn 加速器モジュールに適用することにより,提案手法の有効性を示すため,lut 利用率の低さと競合最大周波数および消費電力の小さい領域をそれぞれ求め,dnn 加速器のハードウェアコスト低減効果を示す。
関連論文リスト
- xTern: Energy-Efficient Ternary Neural Network Inference on RISC-V-Based Edge Systems [11.488297094967377]
3次ニューラルネットワーク(TNN)は、バイナリニューラルネットワークに比べて精度とエネルギーのトレードオフが優れている。
汎用コア上でのTNN推論の高速化を目的としたRISC-V命令セットアーキテクチャの軽量拡張であるxTernを提案する。
以上の結果から,XTernはRISC-Vベースの超低消費電力エッジAIプラットフォームを,TNNの効率性の恩恵を受けることができることがわかった。
論文 参考訳(メタデータ) (2024-05-29T13:16:46Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Low Error-Rate Approximate Multiplier Design for DNNs with
Hardware-Driven Co-Optimization [5.547686929207811]
2つの近似3*3乗算器が提案され、ASAP-7nmプロセスライブラリの合成結果は、面積を31.38%、36.17%削減できることを正当化している。
それらは2*2乗算器で集約され、DNN重みの分布に基づいて低い誤差率の8*8乗算器を生成する。
ハードウェア駆動型ソフトウェアによる協調最適化手法を提案し,再学習によるDNNの精度向上を図る。
論文 参考訳(メタデータ) (2022-10-08T05:00:26Z) - BottleFit: Learning Compressed Representations in Deep Neural Networks
for Effective and Efficient Split Computing [48.11023234245863]
圧縮速度が強い場合でも高い精度を達成するための新しいトレーニング戦略を含む,BottleFitと呼ばれる新しいフレームワークを提案する。
BottleFitは77.1%のデータ圧縮を実現し、ImageNetデータセットでは最大で0.6%の精度でロスする。
本稿では,BottleFitが消費電力とレイテンシを最大で49%,(w.r.t.)ローカルコンピューティングでは89%,エッジオフロードでは37%,W.r.t.エッジオフロードでは55%削減することを示した。
論文 参考訳(メタデータ) (2022-01-07T22:08:07Z) - Positive/Negative Approximate Multipliers for DNN Accelerators [3.1921317895626493]
本稿では,重みを近似乗算器の適切なモードにマッピングするフィルタ指向近似法を提案する。
提案手法では,4つの異なるデータセット上で平均7つのNNで18.33%のエネルギーゲインを達成し,最大精度の低下は1%に留まった。
論文 参考訳(メタデータ) (2021-07-20T09:36:24Z) - Control Variate Approximation for DNN Accelerators [3.1921317895626493]
低誤差近似Deep Neural Network (DNN)アクセラレータの制御変位近似技術について紹介する。
提案手法は,時間的再学習を必要とせず,推論における近似的乗算による帰納誤差を著しく低減する。
論文 参考訳(メタデータ) (2021-02-18T22:11:58Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Bit Error Robustness for Energy-Efficient DNN Accelerators [93.58572811484022]
本稿では、ロバストな固定点量子化、重み切り、ランダムビット誤り訓練(RandBET)の組み合わせにより、ランダムビット誤りに対するロバスト性を向上することを示す。
これは低電圧動作と低精度量子化の両方から高エネルギーの節約につながる。
論文 参考訳(メタデータ) (2020-06-24T18:23:10Z) - An Accurate EEGNet-based Motor-Imagery Brain-Computer Interface for
Low-Power Edge Computing [13.266626571886354]
本稿では,MI-BCI(MI-BCI)の精度と堅牢性を示す。
EEGNetに基づく新しいモデルでは、低消費電力マイクロコントローラユニット(MCU)のメモリフットプリントと計算資源の要件が一致している。
スケールされたモデルは、最小モデルを操作するために101msと4.28mJを消費する商用のCortex-M4F MCUにデプロイされ、中型モデルでは44msと18.1mJのCortex-M7にデプロイされる。
論文 参考訳(メタデータ) (2020-03-31T19:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。