論文の概要: Sparseloop: An Analytical Approach To Sparse Tensor Accelerator Modeling
- arxiv url: http://arxiv.org/abs/2205.05826v1
- Date: Thu, 12 May 2022 01:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:15:19.558560
- Title: Sparseloop: An Analytical Approach To Sparse Tensor Accelerator Modeling
- Title(参考訳): Sparseloop: テンソル加速器モデリングにおける解析的アプローチ
- Authors: Yannan Nellie Wu, Po-An Tsai, Angshuman Parashar, Vivienne Sze, Joel
S. Emer
- Abstract要約: 本稿ではまず,多種多様なテンソル型加速器の設計空間を体系的に記述する統合分類法を提案する。
提案された分類に基づいて、最初の高速で正確で柔軟な分析モデリングフレームワークであるSparseloopを導入した。
Sparseloopは、さまざまなデータフローやスパースアクセラレーション機能を含む、大規模なアーキテクチャ仕様を理解している。
- 参考スコア(独自算出の注目度): 10.610523739702971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, many accelerators have been proposed to efficiently process
sparse tensor algebra applications (e.g., sparse neural networks). However,
these proposals are single points in a large and diverse design space. The lack
of systematic description and modeling support for these sparse tensor
accelerators impedes hardware designers from efficient and effective design
space exploration. This paper first presents a unified taxonomy to
systematically describe the diverse sparse tensor accelerator design space.
Based on the proposed taxonomy, it then introduces Sparseloop, the first fast,
accurate, and flexible analytical modeling framework to enable early-stage
evaluation and exploration of sparse tensor accelerators. Sparseloop
comprehends a large set of architecture specifications, including various
dataflows and sparse acceleration features (e.g., elimination of zero-based
compute). Using these specifications, Sparseloop evaluates a design's
processing speed and energy efficiency while accounting for data movement and
compute incurred by the employed dataflow as well as the savings and overhead
introduced by the sparse acceleration features using stochastic tensor density
models. Across representative accelerators and workloads, Sparseloop achieves
over 2000 times faster modeling speed than cycle-level simulations, maintains
relative performance trends, and achieves 0.1% to 8% average error. With a case
study, we demonstrate Sparseloop's ability to help reveal important insights
for designing sparse tensor accelerators (e.g., it is important to co-design
orthogonal design aspects).
- Abstract(参考訳): 近年、スパーステンソル代数(例えばスパースニューラルネットワーク)を効率的に処理するために多くの加速器が提案されている。
しかし、これらの提案は、大きく多様なデザイン空間において単一ポイントである。
これらのスパーステンソルアクセラレーターの体系的な記述とモデリングサポートの欠如は、ハードウェア設計者が効率的で効率的な設計スペース探索を妨げている。
本稿ではまず,多種多様なテンソル型加速器の設計空間を体系的に記述する統合分類法を提案する。
提案された分類に基づいて、スパーステンソル加速器の早期評価と探索を可能にする、最初の高速で正確で柔軟な分析モデルフレームワークであるスパースループを導入した。
sparseloopは、さまざまなデータフローやスパースアクセラレーション機能(ゼロベースの計算の削除など)を含む、多数のアーキテクチャ仕様を理解する。
これらの仕様を用いて、Sparseloopは、確率テンソル密度モデルを用いてスパース加速度特徴によって導入された節約とオーバーヘッドと同様に、データ移動とデータフローによる計算を考慮しつつ、設計の処理速度とエネルギー効率を評価する。
代表的アクセラレータとワークロード全体で、Sparseloopはサイクルレベルのシミュレーションよりも2000倍以上高速なモデリング速度を実現し、相対的なパフォーマンストレンドを維持し、平均エラーは0.1%から8%に達する。
ケーススタディでは、スパーステンソル加速器を設計するための重要な洞察を明らかにする上で、スパースループの能力を示す(例えば、直交設計の側面を共設計することが重要である)。
関連論文リスト
- Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - KAPLA: Pragmatic Representation and Fast Solving of Scalable NN
Accelerator Dataflow [0.0]
汎用的で最適化され、高速なデータフロー解決器KAPLAを構築し、効果的な妥当性チェックと効率推定により設計空間を探索する。
KAPLAは、トレーニングと推論のための結果データフローにおいて、わずか2.2%と7.7%のエネルギーオーバーヘッドしか達成していない。
また、ランダムおよび機械学習ベースのアプローチよりも優れており、より最適化された結果と桁違いに高速な検索スピードアップを実現している。
論文 参考訳(メタデータ) (2023-06-09T03:12:42Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights [18.04657939198617]
本稿では,ハードウェアアクセラレータ上での機械学習モデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
異なるハードウェア設計とアクセラレーション技術を分析し、ハードウェアと実行コストの観点から分析する。
スパース、不規則形状、量子化テンソルの加速における重要な課題を理解すること。
論文 参考訳(メタデータ) (2020-07-02T04:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。