論文の概要: Stella Nera: Achieving 161 TOp/s/W with Multiplier-free DNN Acceleration
based on Approximate Matrix Multiplication
- arxiv url: http://arxiv.org/abs/2311.10207v1
- Date: Thu, 16 Nov 2023 21:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 15:42:04.735549
- Title: Stella Nera: Achieving 161 TOp/s/W with Multiplier-free DNN Acceleration
based on Approximate Matrix Multiplication
- Title(参考訳): Stella Nera: 近似行列乗算に基づくマルチプライヤフリーDNN高速化による161TOp/s/Wの実現
- Authors: Jannis Sch\"onleber, Lukas Cavigelli, Renzo Andri, Matteo Perotti,
Luca Benini
- Abstract要約: MatMulは今日のコンピューティングの中心にあります。
最近のマッドネス法は乗算を必要とせずにMatMulを近似する。
ステラ・ネラは初のマドネス・アクセラレーターである。
- 参考スコア(独自算出の注目度): 12.421595866552249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From classical HPC to deep learning, MatMul is at the heart of today's
computing. The recent Maddness method approximates MatMul without the need for
multiplication by using a hash-based version of product quantization (PQ)
indexing into a look-up table (LUT). Stella Nera is the first Maddness
accelerator and it achieves 15x higher area efficiency (GMAC/s/mm^2) and more
than 25x higher energy efficiency (TMAC/s/W) than direct MatMul accelerators
implemented in the same technology. The hash function is a decision tree, which
allows for an efficient hardware implementation as the multiply-accumulate
operations are replaced by decision tree passes and LUT lookups. The entire
Maddness MatMul can be broken down into parts that allow an effective
implementation with small computing units and memories, allowing it to reach
extreme efficiency while remaining generically applicable for MatMul tasks. In
a commercial 14nm technology and scaled to 3nm, we achieve an energy efficiency
of 161 TOp/s/W@0.55V with a Top-1 accuracy on CIFAR-10 of more than 92.5% using
ResNet9.
- Abstract(参考訳): 古典的なHPCからディープラーニングまで、MatMulは今日のコンピューティングの中心にある。
最近のマッドネス法は、ルックアップテーブル (LUT) にハッシュベースの製品量子化 (PQ) インデックス化を用いて、乗法を必要とせずに、MatMul を近似する。
ステラ・ネラは最初のマドネス加速器であり、15倍の面積効率(GMAC/s/mm^2)と25倍以上のエネルギー効率(TMAC/s/W)を達成する。
ハッシュ関数は決定木であり、乗算累積演算が決定木パスとLUTルックアップに置き換えられるため、効率的なハードウェア実装を可能にする。
Maddness MatMulの全体は、小さなコンピュータユニットとメモリによる効果的な実装を可能にする部分に分割され、MatMulタスクに汎用的に適用されながら、極端に効率が向上する。
市販の14nm技術で3nmにスケールし、161TOp/s/W@0.55Vのエネルギー効率を実現し、ResNet9を用いて92.5%以上のCIFAR-10のTop-1精度を実現した。
関連論文リスト
- DYAD: A Descriptive Yet Abjuring Density efficient approximation to
linear neural network layers [19.949611634077634]
我々はDYADを考案し、実装し、性能評価する。DYADは線形層を高速でよりメモリ効率の良い近似的に置き換えることができる。
DYADは、行列がそのような層、a.a.DENSEの典型的な実現において入力を乗算する濃厚な「重い」行列Wを近似するベスポーク近傍スパース行列構造に基づいている。
論文 参考訳(メタデータ) (2023-12-11T23:04:48Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - A Deep Learning Inference Scheme Based on Pipelined Matrix
Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。
その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-10T17:31:27Z) - Power-Based Attacks on Spatial DNN Accelerators [11.536650557854324]
本稿では,一般的な8ビット数表現を用いた空間加速器の脆弱性について検討する。
複数のプロファイリングフェーズを持つテンプレートベースの新しいDPAは、たった40Kトレースで2D配列を完全に破壊することができる。
論文 参考訳(メタデータ) (2021-08-28T05:25:03Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Multiplying Matrices Without Multiplying [0.0]
行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。
本稿では,既存の手法を大幅に上回る学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-21T05:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。