論文の概要: Pre-RTL DNN Hardware Evaluator With Fused Layer Support
- arxiv url: http://arxiv.org/abs/2205.01729v1
- Date: Mon, 2 May 2022 09:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 15:09:22.148910
- Title: Pre-RTL DNN Hardware Evaluator With Fused Layer Support
- Title(参考訳): 融合層をサポートしたプレRTL DNNハードウェア評価器
- Authors: Chih-Chyau Yang and Tian-Sheuan Chang
- Abstract要約: 本稿では,従来の層間処理と,低帯域幅要求に対する融合層処理をサポートするRTL前評価器を提案する。
実験の結果、層融合方式は55.6%のメモリ帯域幅削減、36.7%のレイテンシ改善、49.2%のエネルギー削減を実現している。
- 参考スコア(独自算出の注目度): 0.1246030133914898
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the popularity of the deep neural network (DNN), hardware accelerators
are demanded for real time execution. However, lengthy design process and fast
evolving DNN models make hardware evaluation hard to meet the time to market
need. This paper proposes a pre-RTL DNN hardware evaluator that supports
conventional layer-by-layer processing as well as the fused layer processing
for low external bandwidth requirement. The evaluator supports two
state-of-the-art accelerator architectures and finds the best hardware and
layer fusion group The experimental results show the layer fusion scheme can
achieve 55.6% memory bandwidth reduction, 36.7% latency improvement and 49.2%
energy reduction compared with layer-by-layer operation.
- Abstract(参考訳): deep neural network(dnn)の人気により、ハードウェアアクセラレーターはリアルタイム実行のために要求される。
しかし、長い設計プロセスと急速に進化するDNNモデルは、ハードウェア評価を市場のニーズを満たすために困難にしている。
本稿では,従来の層間処理と,低帯域幅要求に対する融合層処理をサポートするプレRTL DNNハードウェア評価器を提案する。
評価器は2つの最先端アクセラレータアーキテクチャをサポートし、最高のハードウェアと層融合グループを見出した。実験結果は、層融合方式が層間操作と比較して55.6%のメモリ帯域幅削減、36.7%のレイテンシ改善、49.2%のエネルギー削減を達成できることを示している。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - HYDRA: Hybrid Data Multiplexing and Run-time Layer Configurable DNN Accelerator [0.0]
本稿では,FMA(Fused-Multiply-Accumulate)を改良した単一層の実行において,単一のアクティベーション関数を再利用した層多重化手法を提案する。
提案したアーキテクチャは、電力消費と資源利用の改善の90%以上を35.21 TOPSWで達成している。
論文 参考訳(メタデータ) (2024-09-08T05:10:02Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - MARS: Exploiting Multi-Level Parallelism for DNN Workloads on Adaptive
Multi-Accelerator Systems [27.490645446510033]
本稿では,並列性を最大化するために,計算対応アクセラレータ選択と通信対応シャーディング戦略の適用が可能な新しいマッピングフレームワークを提案する。
その結果,MARS はベースラインと比較して DNN のワークロードの平均で32.2% のレイテンシ削減を達成でき,またヘテロジニアスモデルでは59.4% のレイテンシ削減を実現している。
論文 参考訳(メタデータ) (2023-07-23T05:50:37Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - Sparse Compressed Spiking Neural Network Accelerator for Object
Detection [0.1246030133914898]
スパイキングニューラルネットワーク(SNN)は、人間の脳にインスパイアされ、バイナリスパイクと非常にスパースなアクティベーションマップを送信する。
本稿では, 活性化マップと重みの疎度を生かした, スパース圧縮スパイクニューラルネットワーク加速器を提案する。
ニューラルネットワークの実験結果は、71.5$%$mAPで、ISV 3clsデータセットの混合(1,3)タイムステップを示している。
論文 参考訳(メタデータ) (2022-05-02T09:56:55Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - From DNNs to GANs: Review of efficient hardware architectures for deep
learning [0.0]
ニューラルネットワークとディープラーニングが現在の研究パラダイムに影響を与え始めている。
DSPプロセッサは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成的敵ネットワーク操作を実行することができない。
異なるアルゴリズムは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成対向ネットワークにおける高速なパフォーマンスに適合するDSPプロセッサを設計するために適合している。
論文 参考訳(メタデータ) (2021-06-06T13:23:06Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。