論文の概要: Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights
- arxiv url: http://arxiv.org/abs/2007.00864v2
- Date: Thu, 22 Jul 2021 17:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 12:49:12.632974
- Title: Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights
- Title(参考訳): MLモデルのスパースと不規則テンソル計算のハードウェア高速化:調査と考察
- Authors: Shail Dave, Riyadh Baghdadi, Tony Nowatzki, Sasikanth Avancha, Aviral
Shrivastava, Baoxin Li
- Abstract要約: 本稿では,ハードウェアアクセラレータ上での機械学習モデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
異なるハードウェア設計とアクセラレーション技術を分析し、ハードウェアと実行コストの観点から分析する。
スパース、不規則形状、量子化テンソルの加速における重要な課題を理解すること。
- 参考スコア(独自算出の注目度): 18.04657939198617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) models are widely used in many important domains. For
efficiently processing these computational- and memory-intensive applications,
tensors of these over-parameterized models are compressed by leveraging
sparsity, size reduction, and quantization of tensors. Unstructured sparsity
and tensors with varying dimensions yield irregular computation, communication,
and memory access patterns; processing them on hardware accelerators in a
conventional manner does not inherently leverage acceleration opportunities.
This paper provides a comprehensive survey on the efficient execution of sparse
and irregular tensor computations of ML models on hardware accelerators. In
particular, it discusses enhancement modules in the architecture design and the
software support; categorizes different hardware designs and acceleration
techniques and analyzes them in terms of hardware and execution costs; analyzes
achievable accelerations for recent DNNs; highlights further opportunities in
terms of hardware/software/model co-design optimizations (inter/intra-module).
The takeaways from this paper include: understanding the key challenges in
accelerating sparse, irregular-shaped, and quantized tensors; understanding
enhancements in accelerator systems for supporting their efficient
computations; analyzing trade-offs in opting for a specific design choice for
encoding, storing, extracting, communicating, computing, and load-balancing the
non-zeros; understanding how structured sparsity can improve storage efficiency
and balance computations; understanding how to compile and map models with
sparse tensors on the accelerators; understanding recent design trends for
efficient accelerations and further opportunities.
- Abstract(参考訳): 機械学習(ML)モデルは、多くの重要なドメインで広く使われている。
これらの計算およびメモリ集約的応用を効率的に処理するために、これらの過剰パラメータモデルのテンソルは、分散性、サイズ縮小、およびテンソルの量子化を利用して圧縮される。
不規則な計算、通信、メモリアクセスパターンが得られるが、従来の方法でハードウェアアクセラレーターで処理することは、アクセラレーションの機会を本質的に活用するものではない。
本稿では,ハードウェアアクセラレータ上でのMLモデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
特に、アーキテクチャ設計とソフトウェアサポートにおける強化モジュールについて論じ、異なるハードウェア設計とアクセラレーションテクニックを分類し、ハードウェアと実行コストの観点から分析し、最近のDNNの達成可能なアクセラレーションを分析し、ハードウェア/ソフトウェア/モデルの共同設計最適化(インター/イントラモジュール)の観点からさらなる機会を強調している。
The takeaways from this paper include: understanding the key challenges in accelerating sparse, irregular-shaped, and quantized tensors; understanding enhancements in accelerator systems for supporting their efficient computations; analyzing trade-offs in opting for a specific design choice for encoding, storing, extracting, communicating, computing, and load-balancing the non-zeros; understanding how structured sparsity can improve storage efficiency and balance computations; understanding how to compile and map models with sparse tensors on the accelerators; understanding recent design trends for efficient accelerations and further opportunities.
関連論文リスト
- Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - A Graph Deep Learning Framework for High-Level Synthesis Design Space
Exploration [11.154086943903696]
High-Level Synthesisは、アプリケーション固有の高速プロトタイピングのためのソリューションである。
本稿では,加速性能とハードウェアコストを共同で予測するグラフニューラルネットワークHLSを提案する。
提案手法は,一般的なシミュレータと同等の精度で予測できることを示す。
論文 参考訳(メタデータ) (2021-11-29T18:17:45Z) - Resistive Neural Hardware Accelerators [0.46198289193451136]
ReRAMベースのインメモリコンピューティングは、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
ReRAMベースのインメモリコンピューティングへの移行は、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
本稿では,最先端のReRAMベースディープニューラルネットワーク(DNN)多コアアクセラレータについて概説する。
論文 参考訳(メタデータ) (2021-09-08T21:11:48Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。