論文の概要: HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator
- arxiv url: http://arxiv.org/abs/2406.03088v1
- Date: Wed, 5 Jun 2024 09:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:09:42.993674
- Title: HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator
- Title(参考訳): HASS: Dataflow DNN Acceleratorのためのハードウェア対応のスパーシリティ検索
- Authors: Zhewen Yu, Sudarshan Sreeram, Krish Agrawal, Junyi Wu, Alexander Montgomerie-Corcoran, Cheng Zhang, Jianyi Cheng, Christos-Savvas Bouganis, Yiren Zhao,
- Abstract要約: 本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。
我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
- 参考スコア(独自算出の注目度): 47.66463010685586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) excel in learning hierarchical representations from raw data, such as images, audio, and text. To compute these DNN models with high performance and energy efficiency, these models are usually deployed onto customized hardware accelerators. Among various accelerator designs, dataflow architecture has shown promising performance due to its layer-pipelined structure and its scalability in data parallelism. Exploiting weights and activations sparsity can further enhance memory storage and computation efficiency. However, existing approaches focus on exploiting sparsity in non-dataflow accelerators, which cannot be applied onto dataflow accelerators because of the large hardware design space introduced. As such, this could miss opportunities to find an optimal combination of sparsity features and hardware designs. In this paper, we propose a novel approach to exploit unstructured weights and activations sparsity for dataflow accelerators, using software and hardware co-optimization. We propose a Hardware-Aware Sparsity Search (HASS) to systematically determine an efficient sparsity solution for dataflow accelerators. Over a set of models, we achieve an efficiency improvement ranging from 1.3$\times$ to 4.2$\times$ compared to existing sparse designs, which are either non-dataflow or non-hardware-aware. Particularly, the throughput of MobileNetV3 can be optimized to 4895 images per second. HASS is open-source: \url{https://github.com/Yu-Zhewen/HASS}
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、画像、オーディオ、テキストなどの生データから階層表現を学ぶ際に優れている。
これらのDNNモデルを高い性能とエネルギー効率で計算するために、これらのモデルは、通常、カスタマイズされたハードウェアアクセラレータにデプロイされる。
様々な加速器の設計の中で、データフローアーキテクチャは、その層状ピペリン構造とデータ並列性におけるスケーラビリティにより、有望な性能を示している。
エクスプロイトウェイトとアクティベートは、メモリストレージと計算効率をさらに向上させる。
しかし、既存のアプローチでは、大規模なハードウェア設計スペースが導入されたため、データフローアクセラレータには適用できない非データフローアクセラレーターのスパーシティを活用することに重点を置いている。
そのため、余分な機能とハードウェア設計の最適な組み合わせを見つける機会を逃す可能性がある。
本稿では,ソフトウェアとハードウェアの協調最適化を用いて,非構造ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。
データフローアクセラレーターの効率的な疎性解を体系的に決定するハードウェア・アウェア・スパシティ・サーチ(HASS)を提案する。
一組のモデルにおいて、既存のスパース設計と比較して、1.3$\times$から4.2$\times$までの効率改善を実現している。
特にMobileNetV3のスループットは毎秒4895イメージに最適化できる。
HASSはオープンソースである: \url{https://github.com/Yu-Zhewen/HASS}
関連論文リスト
- FlexNN: A Dataflow-aware Flexible Deep Learning Accelerator for Energy-Efficient Edge Devices [0.6892601897291335]
本稿では,アジャイル設計の原則を取り入れたFlexNNを紹介する。
私たちの設計は、ソフトウェア記述子を通じてあらゆるタイプの適応可能なデータフローを可能にすることで革新的です。
スループットをさらに向上し、エネルギー消費を削減するために、スポーシティベースの新しい加速ロジックを提案する。
論文 参考訳(メタデータ) (2024-03-14T01:39:12Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - KAPLA: Pragmatic Representation and Fast Solving of Scalable NN
Accelerator Dataflow [0.0]
汎用的で最適化され、高速なデータフロー解決器KAPLAを構築し、効果的な妥当性チェックと効率推定により設計空間を探索する。
KAPLAは、トレーニングと推論のための結果データフローにおいて、わずか2.2%と7.7%のエネルギーオーバーヘッドしか達成していない。
また、ランダムおよび機械学習ベースのアプローチよりも優れており、より最適化された結果と桁違いに高速な検索スピードアップを実現している。
論文 参考訳(メタデータ) (2023-06-09T03:12:42Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Sparse Periodic Systolic Dataflow for Lowering Latency and Power
Dissipation of Convolutional Neural Network Accelerators [3.043665249713003]
本稿では,SPS(Sparse periodic systolic)データフローについて紹介する。
PPSの規則性を活用することで、スパシティ対応コンパイラは重みを最適に並べ替え、ハードウェアの単純なインデックス化ユニットを使用して重みとアクティベーションの一致を生成する。
論文 参考訳(メタデータ) (2022-06-30T19:16:46Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Searching for Fast Model Families on Datacenter Accelerators [33.28421782921072]
高速かつ高精度なCNNモデルファミリをDC加速器上での効率的な推論のために探索する。
本稿では,待ち時間と待ち時間の両方を最適化するLACS法を提案する。
我々のLACSは、ネットワークの深さが画像サイズやネットワーク幅よりもはるかに速く成長することを発見した。
論文 参考訳(メタデータ) (2021-02-10T18:15:40Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators
using Reinforcement Learning [5.251940442946459]
本研究では、与えられたモデルとデータフロースタイルに対して最適化されたHWリソース割り当てを見つけるために、ConfuciuXと呼ばれる自律的戦略を提案する。
最適化されたハードウェア構成4.7から24倍の速度で収束する。
論文 参考訳(メタデータ) (2020-09-04T04:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。