Fugu-MT 論文翻訳(概要): HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator

論文の概要: HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator

arxiv url: http://arxiv.org/abs/2406.03088v1
Date: Wed, 5 Jun 2024 09:25:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 19:09:42.993674
Title: HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator
Title（参考訳）: HASS: Dataflow DNN Acceleratorのためのハードウェア対応のスパーシリティ検索
Authors: Zhewen Yu, Sudarshan Sreeram, Krish Agrawal, Junyi Wu, Alexander Montgomerie-Corcoran, Cheng Zhang, Jianyi Cheng, Christos-Savvas Bouganis, Yiren Zhao,
Abstract要約: 本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
参考スコア（独自算出の注目度）: 47.66463010685586
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Neural Networks (DNNs) excel in learning hierarchical representations from raw data, such as images, audio, and text. To compute these DNN models with high performance and energy efficiency, these models are usually deployed onto customized hardware accelerators. Among various accelerator designs, dataflow architecture has shown promising performance due to its layer-pipelined structure and its scalability in data parallelism. Exploiting weights and activations sparsity can further enhance memory storage and computation efficiency. However, existing approaches focus on exploiting sparsity in non-dataflow accelerators, which cannot be applied onto dataflow accelerators because of the large hardware design space introduced. As such, this could miss opportunities to find an optimal combination of sparsity features and hardware designs. In this paper, we propose a novel approach to exploit unstructured weights and activations sparsity for dataflow accelerators, using software and hardware co-optimization. We propose a Hardware-Aware Sparsity Search (HASS) to systematically determine an efficient sparsity solution for dataflow accelerators. Over a set of models, we achieve an efficiency improvement ranging from 1.3$\times$ to 4.2$\times$ compared to existing sparse designs, which are either non-dataflow or non-hardware-aware. Particularly, the throughput of MobileNetV3 can be optimized to 4895 images per second. HASS is open-source: \url{https://github.com/Yu-Zhewen/HASS}
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、画像、オーディオ、テキストなどの生データから階層表現を学ぶ際に優れている。これらのDNNモデルを高い性能とエネルギー効率で計算するために、これらのモデルは、通常、カスタマイズされたハードウェアアクセラレータにデプロイされる。様々な加速器の設計の中で、データフローアーキテクチャは、その層状ピペリン構造とデータ並列性におけるスケーラビリティにより、有望な性能を示している。エクスプロイトウェイトとアクティベートは、メモリストレージと計算効率をさらに向上させる。しかし、既存のアプローチでは、大規模なハードウェア設計スペースが導入されたため、データフローアクセラレータには適用できない非データフローアクセラレーターのスパーシティを活用することに重点を置いている。そのため、余分な機能とハードウェア設計の最適な組み合わせを見つける機会を逃す可能性がある。本稿では,ソフトウェアとハードウェアの協調最適化を用いて,非構造ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。データフローアクセラレーターの効率的な疎性解を体系的に決定するハードウェア・アウェア・スパシティ・サーチ(HASS)を提案する。一組のモデルにおいて、既存のスパース設計と比較して、1.3$\times$から4.2$\times$までの効率改善を実現している。特にMobileNetV3のスループットは毎秒4895イメージに最適化できる。 HASSはオープンソースである: \url{https://github.com/Yu-Zhewen/HASS}

関連論文リスト

Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
SpikeX: Exploring Accelerator Architecture and Network-Hardware Co-Optimization for Sparse Spiking Neural Networks [3.758294848902233]
本研究では,非構造的空間性から生じる課題と機会に対処するため,Systolic-array SNNアクセラレーターアーキテクチャであるSpikeXを提案する。 SpikeXはメモリアクセスを減らし、データ共有と時間と空間にまたがる計算を対象とするハードウェア利用を増加させる。
論文参考訳（メタデータ） (2025-05-18T08:07:44Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
FlexNN: A Dataflow-aware Flexible Deep Learning Accelerator for Energy-Efficient Edge Devices [0.6892601897291335]
本稿では,アジャイル設計の原則を取り入れたFlexNNを紹介する。私たちの設計は、ソフトウェア記述子を通じてあらゆるタイプの適応可能なデータフローを可能にすることで革新的です。スループットをさらに向上し、エネルギー消費を削減するために、スポーシティベースの新しい加速ロジックを提案する。
論文参考訳（メタデータ） (2024-03-14T01:39:12Z)
SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。 YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文参考訳（メタデータ） (2023-09-04T13:15:01Z)
KAPLA: Pragmatic Representation and Fast Solving of Scalable NN Accelerator Dataflow [0.0]
汎用的で最適化され、高速なデータフロー解決器KAPLAを構築し、効果的な妥当性チェックと効率推定により設計空間を探索する。 KAPLAは、トレーニングと推論のための結果データフローにおいて、わずか2.2%と7.7%のエネルギーオーバーヘッドしか達成していない。また、ランダムおよび機械学習ベースのアプローチよりも優れており、より最適化された結果と桁違いに高速な検索スピードアップを実現している。
論文参考訳（メタデータ） (2023-06-09T03:12:42Z)
Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文参考訳（メタデータ） (2022-10-16T16:21:40Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Searching for Fast Model Families on Datacenter Accelerators [33.28421782921072]
高速かつ高精度なCNNモデルファミリをDC加速器上での効率的な推論のために探索する。本稿では,待ち時間と待ち時間の両方を最適化するLACS法を提案する。我々のLACSは、ネットワークの深さが画像サイズやネットワーク幅よりもはるかに速く成長することを発見した。
論文参考訳（メタデータ） (2021-02-10T18:15:40Z)
ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning [5.251940442946459]
本研究では、与えられたモデルとデータフロースタイルに対して最適化されたHWリソース割り当てを見つけるために、ConfuciuXと呼ばれる自律的戦略を提案する。最適化されたハードウェア構成4.7から24倍の速度で収束する。
論文参考訳（メタデータ） (2020-09-04T04:59:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。