論文の概要: A Precision-Scalable RISC-V DNN Processor with On-Device Learning
Capability at the Extreme Edge
- arxiv url: http://arxiv.org/abs/2309.08186v1
- Date: Fri, 15 Sep 2023 06:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:44:59.007159
- Title: A Precision-Scalable RISC-V DNN Processor with On-Device Learning
Capability at the Extreme Edge
- Title(参考訳): 極端エッジでのオンデバイス学習能力を有する精度スケーラブルRISC-V DNNプロセッサ
- Authors: Longwei Huang, Chao Fang, Qiong Li, Jun Lin, Zhongfeng Wang
- Abstract要約: 車両内スマートデバイスのような極端エッジプラットフォームは、量子化されたディープニューラルネットワーク(DNN)の効率的なデプロイを必要とします。
デバイス上での学習機能を備えた高精度RISC-V DNNプロセッサを提案する。
我々のプロセッサは推論スループットを1.6$sim$14.6$times$で、エネルギー効率を1.1$sim$14.6$times$で改善している。
- 参考スコア(独自算出の注目度): 10.676500459663126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme edge platforms, such as in-vehicle smart devices, require efficient
deployment of quantized deep neural networks (DNNs) to enable intelligent
applications with limited amounts of energy, memory, and computing resources.
However, many edge devices struggle to boost inference throughput of various
quantized DNNs due to the varying quantization levels, and these devices lack
floating-point (FP) support for on-device learning, which prevents them from
improving model accuracy while ensuring data privacy. To tackle the challenges
above, we propose a precision-scalable RISC-V DNN processor with on-device
learning capability. It facilitates diverse precision levels of fixed-point DNN
inference, spanning from 2-bit to 16-bit, and enhances on-device learning
through improved support with FP16 operations. Moreover, we employ multiple
methods such as FP16 multiplier reuse and multi-precision integer multiplier
reuse, along with balanced mapping of FPGA resources, to significantly improve
hardware resource utilization. Experimental results on the Xilinx ZCU102 FPGA
show that our processor significantly improves inference throughput by
1.6$\sim$14.6$\times$ and energy efficiency by 1.1$\sim$14.6$\times$ across
various DNNs, compared to the prior art, XpulpNN. Additionally, our processor
achieves a 16.5$\times$ higher FP throughput for on-device learning.
- Abstract(参考訳): 車両内スマートデバイスのような極端なエッジプラットフォームでは、限られたエネルギー、メモリ、コンピューティングリソースを持つインテリジェントなアプリケーションを実現するために、量子化されたディープニューラルネットワーク(DNN)の効率的なデプロイが必要である。
しかし、多くのエッジデバイスは、様々な量子化レベルのため、様々な量子化DNNの推論スループットを向上させるのに苦労しており、これらのデバイスはデバイス上での学習に対する浮動小数点(FP)サポートを欠いているため、データのプライバシを確保しながらモデルの正確性を改善することができない。
そこで本研究では,デバイス上での学習能力を有する高精度risc-v dnnプロセッサを提案する。
2ビットから16ビットにまたがる固定点DNN推論の様々な精度レベルを促進し、FP16操作によるサポートの改善を通じてデバイス上での学習を強化する。
さらに,FP16乗算器の再利用やマルチ精度整数乗算器の再利用,FPGAリソースのバランスの取れたマッピングなどの複数の手法を用いて,ハードウェアリソースの利用率を大幅に向上する。
Xilinx ZCU102 FPGA の実験結果から,プロセッサの推論スループットは 1.6$\sim$14.6$\times$ で,エネルギー効率は 1.1$\sim$14.6$\times$ で,先行技術である XpulpNN よりも大幅に向上した。
さらに、我々のプロセッサはデバイス上での学習のために16.5$\times$高いFPスループットを実現する。
関連論文リスト
- OHQ: On-chip Hardware-aware Quantization [55.62734488492329]
我々は,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア・アウェア量子化(OHQ)フレームワークを提案する。
線形プログラミングによるネットワークおよびハードウェアの洞察により、最適化されたビット幅構成が得られる。
ResNet-18 と MobileNetV3 でそれぞれ70% と 73% の精度を実現した。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文 参考訳(メタデータ) (2023-08-25T17:28:58Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文 参考訳(メタデータ) (2021-10-01T15:20:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Learning on Hardware: A Tutorial on Neural Network Accelerators and
Co-Processors [0.0]
ディープニューラルネットワーク(dnn)は、複雑なタスクを解決可能にするために、多くのパラメータを考慮に入れることができるという利点がある。
コンピュータビジョンや音声認識では、一般的なアルゴリズムよりも精度が高く、タスクによっては人間の専門家よりも精度が高いものもあります。
近年のDNNの進展に伴い、疾患の診断や自動運転など、多くの応用分野が活用されています。
論文 参考訳(メタデータ) (2021-04-19T12:50:27Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。
線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文 参考訳(メタデータ) (2020-09-16T04:24:18Z) - A Learning Framework for n-bit Quantized Neural Networks toward FPGAs [20.83904734716565]
重みが2つのパワーに制約されるnビットQNNのための新しい学習フレームワークを提案する。
また,n-BQ-NNという新しいQNN構造も提案する。
SVPEを用いたN-BQ-NNは,ベクトル処理素子(VPE)よりも2.9倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-04-06T04:21:24Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。