論文の概要: Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights
- arxiv url: http://arxiv.org/abs/2007.00864v2
- Date: Thu, 22 Jul 2021 17:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 12:49:12.632974
- Title: Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights
- Title(参考訳): MLモデルのスパースと不規則テンソル計算のハードウェア高速化:調査と考察
- Authors: Shail Dave, Riyadh Baghdadi, Tony Nowatzki, Sasikanth Avancha, Aviral
Shrivastava, Baoxin Li
- Abstract要約: 本稿では,ハードウェアアクセラレータ上での機械学習モデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
異なるハードウェア設計とアクセラレーション技術を分析し、ハードウェアと実行コストの観点から分析する。
スパース、不規則形状、量子化テンソルの加速における重要な課題を理解すること。
- 参考スコア(独自算出の注目度): 18.04657939198617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) models are widely used in many important domains. For
efficiently processing these computational- and memory-intensive applications,
tensors of these over-parameterized models are compressed by leveraging
sparsity, size reduction, and quantization of tensors. Unstructured sparsity
and tensors with varying dimensions yield irregular computation, communication,
and memory access patterns; processing them on hardware accelerators in a
conventional manner does not inherently leverage acceleration opportunities.
This paper provides a comprehensive survey on the efficient execution of sparse
and irregular tensor computations of ML models on hardware accelerators. In
particular, it discusses enhancement modules in the architecture design and the
software support; categorizes different hardware designs and acceleration
techniques and analyzes them in terms of hardware and execution costs; analyzes
achievable accelerations for recent DNNs; highlights further opportunities in
terms of hardware/software/model co-design optimizations (inter/intra-module).
The takeaways from this paper include: understanding the key challenges in
accelerating sparse, irregular-shaped, and quantized tensors; understanding
enhancements in accelerator systems for supporting their efficient
computations; analyzing trade-offs in opting for a specific design choice for
encoding, storing, extracting, communicating, computing, and load-balancing the
non-zeros; understanding how structured sparsity can improve storage efficiency
and balance computations; understanding how to compile and map models with
sparse tensors on the accelerators; understanding recent design trends for
efficient accelerations and further opportunities.
- Abstract(参考訳): 機械学習(ML)モデルは、多くの重要なドメインで広く使われている。
これらの計算およびメモリ集約的応用を効率的に処理するために、これらの過剰パラメータモデルのテンソルは、分散性、サイズ縮小、およびテンソルの量子化を利用して圧縮される。
不規則な計算、通信、メモリアクセスパターンが得られるが、従来の方法でハードウェアアクセラレーターで処理することは、アクセラレーションの機会を本質的に活用するものではない。
本稿では,ハードウェアアクセラレータ上でのMLモデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
特に、アーキテクチャ設計とソフトウェアサポートにおける強化モジュールについて論じ、異なるハードウェア設計とアクセラレーションテクニックを分類し、ハードウェアと実行コストの観点から分析し、最近のDNNの達成可能なアクセラレーションを分析し、ハードウェア/ソフトウェア/モデルの共同設計最適化(インター/イントラモジュール)の観点からさらなる機会を強調している。
The takeaways from this paper include: understanding the key challenges in accelerating sparse, irregular-shaped, and quantized tensors; understanding enhancements in accelerator systems for supporting their efficient computations; analyzing trade-offs in opting for a specific design choice for encoding, storing, extracting, communicating, computing, and load-balancing the non-zeros; understanding how structured sparsity can improve storage efficiency and balance computations; understanding how to compile and map models with sparse tensors on the accelerators; understanding recent design trends for efficient accelerations and further opportunities.
関連論文リスト
- Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Sparseloop: An Analytical Approach To Sparse Tensor Accelerator Modeling [10.610523739702971]
本稿ではまず,多種多様なテンソル型加速器の設計空間を体系的に記述する統合分類法を提案する。
提案された分類に基づいて、最初の高速で正確で柔軟な分析モデリングフレームワークであるSparseloopを導入した。
Sparseloopは、さまざまなデータフローやスパースアクセラレーション機能を含む、大規模なアーキテクチャ仕様を理解している。
論文 参考訳(メタデータ) (2022-05-12T01:28:03Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - A Graph Deep Learning Framework for High-Level Synthesis Design Space
Exploration [11.154086943903696]
High-Level Synthesisは、アプリケーション固有の高速プロトタイピングのためのソリューションである。
本稿では,加速性能とハードウェアコストを共同で予測するグラフニューラルネットワークHLSを提案する。
提案手法は,一般的なシミュレータと同等の精度で予測できることを示す。
論文 参考訳(メタデータ) (2021-11-29T18:17:45Z) - Resistive Neural Hardware Accelerators [0.46198289193451136]
ReRAMベースのインメモリコンピューティングは、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
ReRAMベースのインメモリコンピューティングへの移行は、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
本稿では,最先端のReRAMベースディープニューラルネットワーク(DNN)多コアアクセラレータについて概説する。
論文 参考訳(メタデータ) (2021-09-08T21:11:48Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。