Fugu-MT 論文翻訳(概要): FlexiSAGA: A Flexible Systolic Array GEMM Accelerator for Sparse and Dense Processing

論文の概要: FlexiSAGA: A Flexible Systolic Array GEMM Accelerator for Sparse and Dense Processing

arxiv url: http://arxiv.org/abs/2506.01566v1
Date: Mon, 02 Jun 2025 11:45:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.2986
Title: FlexiSAGA: A Flexible Systolic Array GEMM Accelerator for Sparse and Dense Processing
Title（参考訳）: FlexiSAGA:スパースおよびデンス処理のためのフレキシブルシストリックアレイGEMM加速器
Authors: Mika Markus Müller, Konstantin Lübeck, Alexander Louis-Ferdinand Jung, Jannik Steinmetz, Oliver Bringmann,
Abstract要約: 一般行列乗算(GEMM)の疎密処理のためのAIハードウェアアクセラレータFlexiSAGAを提案する。本稿では,高密度かつスパースな畳み込みと完全連結演算子のほぼ最適処理を可能にする,FlexiSAGAアーキテクチャに特化されたDNNプルーニング手法を提案する。我々の結果は、DNNのスパースオーバーダンス推論のスピードアップが1.41から4.28までで、商用および文学報告されたアクセラレータプラットフォームよりも優れていたことを示している。
参考スコア（独自算出の注目度）: 40.197673152937256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial Intelligence (AI) algorithms, such as Deep Neural Networks (DNNs), have become an important tool for a wide range of applications, from computer vision to natural language processing. However, the computational complexity of DNN inference poses a significant challenge, particularly for processing on resource-constrained edge devices. One promising approach to address this challenge is the exploitation of sparsity in DNN operator weights. In this work, we present FlexiSAGA, an architecturally configurable and dataflow-flexible AI hardware accelerator for the sparse and dense processing of general matrix multiplications (GEMMs). FlexiSAGA supports seven different sparse and dense dataflows, enabling efficient processing of resource intensive DNN operators. Additionally, we propose a DNN pruning method specifically tailored towards the FlexiSAGA architecture, allowing for near-optimal processing of dense and sparse convolution and fully-connected operators, facilitating a DNN/HW co-design flow. Our results show a whole DNN sparse-over-dense inference speedup ranging from 1.41 up to 4.28, outperforming commercial and literature-reported accelerator platforms.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)のような人工知能(AI)アルゴリズムは、コンピュータビジョンから自然言語処理に至るまで、幅広いアプリケーションにとって重要なツールとなっている。しかし、DNN推論の計算複雑性は、特にリソース制約されたエッジデバイスでの処理において、大きな課題を生んでいる。この課題に対処する1つの有望なアプローチは、DNN演算子の重み付けにおけるスパーシティの活用である。本稿では,汎用行列乗算(GEMM)の疎密処理のための,アーキテクチャ的に構成可能な,データフローフレキシブルなAIハードウェアアクセラレータであるFlexiSAGAを紹介する。 FlexiSAGAは7つの異なるスパースデータフローをサポートし、リソース集約DNN演算子の効率的な処理を可能にする。さらに,FlexiSAGAアーキテクチャに特化して最適化されたDNNプルーニング手法を提案し,DNN/HW共設計フローを容易にし,高密度かつスパースな畳み込みと完全連結演算子のほぼ最適処理を可能にする。我々の結果は、DNNのスパースオーバーダンス推論のスピードアップが1.41から4.28までで、商用および文学報告されたアクセラレータプラットフォームよりも優れていたことを示している。

関連論文リスト

SpikeX: Exploring Accelerator Architecture and Network-Hardware Co-Optimization for Sparse Spiking Neural Networks [3.758294848902233]
本研究では,非構造的空間性から生じる課題と機会に対処するため,Systolic-array SNNアクセラレーターアーキテクチャであるSpikeXを提案する。 SpikeXはメモリアクセスを減らし、データ共有と時間と空間にまたがる計算を対象とするハードウェア利用を増加させる。
論文参考訳（メタデータ） (2025-05-18T08:07:44Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Spyx: A Library for Just-In-Time Compiled Optimization of Spiking Neural Networks [0.08965418284317034]
Spiking Neural Networks(SNN)は、小さくて低消費電力なハードウェアフットプリントによるエネルギー効率の向上を提供する。本稿では、JAXで設計された新しい軽量SNNシミュレーションおよび最適化ライブラリSpyxを紹介する。
論文参考訳（メタデータ） (2024-02-29T09:46:44Z)
Accurate and Efficient Event-based Semantic Segmentation Using Adaptive Spiking Encoder-Decoder Network [20.05283214295881]
イベントベースのセンサから動的に非同期な信号を処理するための有望なソリューションとして、スパイキングニューラルネットワーク(SNN)が登場している。大規模イベントベースセマンティックセマンティックセグメンテーションタスクのための効率的なスパイキングエンコーダデコーダネットワーク(SpikingEDN)を開発した。適応しきい値を利用して、ストリーミング推論におけるネットワーク精度、空間性、ロバスト性を改善する。
論文参考訳（メタデータ） (2023-04-24T07:12:50Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Complexity-Driven CNN Compression for Resource-constrained Edge AI [1.6114012813668934]
本稿では,CNNの層レベルでの複雑さを生かして,新しい,計算効率の高いプルーニングパイプラインを提案する。パラメータ認識(PA)、FLOP認識(FA)、メモリ認識(MA)の3つのモードを定義し、CNNの汎用圧縮を導入する。
論文参考訳（メタデータ） (2022-08-26T16:01:23Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
Real-time Multi-Task Diffractive Deep Neural Networks via Hardware-Software Co-design [1.6066483376871004]
本研究は,d$2$nnsでロバストかつノイズ耐性のあるマルチタスク学習を実現する,新しいハードウェアソフトウェア共同設計手法を提案する。私たちの実験結果は、汎用性とハードウェア効率の大幅な改善を示し、提案されたマルチタスクD$2$NNアーキテクチャの堅牢性を実証します。
論文参考訳（メタデータ） (2020-12-16T12:29:54Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。