論文の概要: A Precision-Scalable RISC-V DNN Processor with On-Device Learning
Capability at the Extreme Edge
- arxiv url: http://arxiv.org/abs/2309.08186v1
- Date: Fri, 15 Sep 2023 06:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:44:59.007159
- Title: A Precision-Scalable RISC-V DNN Processor with On-Device Learning
Capability at the Extreme Edge
- Title(参考訳): 極端エッジでのオンデバイス学習能力を有する精度スケーラブルRISC-V DNNプロセッサ
- Authors: Longwei Huang, Chao Fang, Qiong Li, Jun Lin, Zhongfeng Wang
- Abstract要約: 車両内スマートデバイスのような極端エッジプラットフォームは、量子化されたディープニューラルネットワーク(DNN)の効率的なデプロイを必要とします。
デバイス上での学習機能を備えた高精度RISC-V DNNプロセッサを提案する。
我々のプロセッサは推論スループットを1.6$sim$14.6$times$で、エネルギー効率を1.1$sim$14.6$times$で改善している。
- 参考スコア(独自算出の注目度): 10.676500459663126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme edge platforms, such as in-vehicle smart devices, require efficient
deployment of quantized deep neural networks (DNNs) to enable intelligent
applications with limited amounts of energy, memory, and computing resources.
However, many edge devices struggle to boost inference throughput of various
quantized DNNs due to the varying quantization levels, and these devices lack
floating-point (FP) support for on-device learning, which prevents them from
improving model accuracy while ensuring data privacy. To tackle the challenges
above, we propose a precision-scalable RISC-V DNN processor with on-device
learning capability. It facilitates diverse precision levels of fixed-point DNN
inference, spanning from 2-bit to 16-bit, and enhances on-device learning
through improved support with FP16 operations. Moreover, we employ multiple
methods such as FP16 multiplier reuse and multi-precision integer multiplier
reuse, along with balanced mapping of FPGA resources, to significantly improve
hardware resource utilization. Experimental results on the Xilinx ZCU102 FPGA
show that our processor significantly improves inference throughput by
1.6$\sim$14.6$\times$ and energy efficiency by 1.1$\sim$14.6$\times$ across
various DNNs, compared to the prior art, XpulpNN. Additionally, our processor
achieves a 16.5$\times$ higher FP throughput for on-device learning.
- Abstract(参考訳): 車両内スマートデバイスのような極端なエッジプラットフォームでは、限られたエネルギー、メモリ、コンピューティングリソースを持つインテリジェントなアプリケーションを実現するために、量子化されたディープニューラルネットワーク(DNN)の効率的なデプロイが必要である。
しかし、多くのエッジデバイスは、様々な量子化レベルのため、様々な量子化DNNの推論スループットを向上させるのに苦労しており、これらのデバイスはデバイス上での学習に対する浮動小数点(FP)サポートを欠いているため、データのプライバシを確保しながらモデルの正確性を改善することができない。
そこで本研究では,デバイス上での学習能力を有する高精度risc-v dnnプロセッサを提案する。
2ビットから16ビットにまたがる固定点DNN推論の様々な精度レベルを促進し、FP16操作によるサポートの改善を通じてデバイス上での学習を強化する。
さらに,FP16乗算器の再利用やマルチ精度整数乗算器の再利用,FPGAリソースのバランスの取れたマッピングなどの複数の手法を用いて,ハードウェアリソースの利用率を大幅に向上する。
Xilinx ZCU102 FPGA の実験結果から,プロセッサの推論スループットは 1.6$\sim$14.6$\times$ で,エネルギー効率は 1.1$\sim$14.6$\times$ で,先行技術である XpulpNN よりも大幅に向上した。
さらに、我々のプロセッサはデバイス上での学習のために16.5$\times$高いFPスループットを実現する。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文 参考訳(メタデータ) (2023-08-25T17:28:58Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文 参考訳(メタデータ) (2021-10-01T15:20:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Learning on Hardware: A Tutorial on Neural Network Accelerators and
Co-Processors [0.0]
ディープニューラルネットワーク(dnn)は、複雑なタスクを解決可能にするために、多くのパラメータを考慮に入れることができるという利点がある。
コンピュータビジョンや音声認識では、一般的なアルゴリズムよりも精度が高く、タスクによっては人間の専門家よりも精度が高いものもあります。
近年のDNNの進展に伴い、疾患の診断や自動運転など、多くの応用分野が活用されています。
論文 参考訳(メタデータ) (2021-04-19T12:50:27Z) - A Learning Framework for n-bit Quantized Neural Networks toward FPGAs [20.83904734716565]
重みが2つのパワーに制約されるnビットQNNのための新しい学習フレームワークを提案する。
また,n-BQ-NNという新しいQNN構造も提案する。
SVPEを用いたN-BQ-NNは,ベクトル処理素子(VPE)よりも2.9倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-04-06T04:21:24Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。