論文の概要: Stella Nera: Achieving 161 TOp/s/W with Multiplier-free DNN Acceleration
based on Approximate Matrix Multiplication
- arxiv url: http://arxiv.org/abs/2311.10207v1
- Date: Thu, 16 Nov 2023 21:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 15:42:04.735549
- Title: Stella Nera: Achieving 161 TOp/s/W with Multiplier-free DNN Acceleration
based on Approximate Matrix Multiplication
- Title(参考訳): Stella Nera: 近似行列乗算に基づくマルチプライヤフリーDNN高速化による161TOp/s/Wの実現
- Authors: Jannis Sch\"onleber, Lukas Cavigelli, Renzo Andri, Matteo Perotti,
Luca Benini
- Abstract要約: MatMulは今日のコンピューティングの中心にあります。
最近のマッドネス法は乗算を必要とせずにMatMulを近似する。
ステラ・ネラは初のマドネス・アクセラレーターである。
- 参考スコア(独自算出の注目度): 12.421595866552249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From classical HPC to deep learning, MatMul is at the heart of today's
computing. The recent Maddness method approximates MatMul without the need for
multiplication by using a hash-based version of product quantization (PQ)
indexing into a look-up table (LUT). Stella Nera is the first Maddness
accelerator and it achieves 15x higher area efficiency (GMAC/s/mm^2) and more
than 25x higher energy efficiency (TMAC/s/W) than direct MatMul accelerators
implemented in the same technology. The hash function is a decision tree, which
allows for an efficient hardware implementation as the multiply-accumulate
operations are replaced by decision tree passes and LUT lookups. The entire
Maddness MatMul can be broken down into parts that allow an effective
implementation with small computing units and memories, allowing it to reach
extreme efficiency while remaining generically applicable for MatMul tasks. In
a commercial 14nm technology and scaled to 3nm, we achieve an energy efficiency
of 161 TOp/s/W@0.55V with a Top-1 accuracy on CIFAR-10 of more than 92.5% using
ResNet9.
- Abstract(参考訳): 古典的なHPCからディープラーニングまで、MatMulは今日のコンピューティングの中心にある。
最近のマッドネス法は、ルックアップテーブル (LUT) にハッシュベースの製品量子化 (PQ) インデックス化を用いて、乗法を必要とせずに、MatMul を近似する。
ステラ・ネラは最初のマドネス加速器であり、15倍の面積効率(GMAC/s/mm^2)と25倍以上のエネルギー効率(TMAC/s/W)を達成する。
ハッシュ関数は決定木であり、乗算累積演算が決定木パスとLUTルックアップに置き換えられるため、効率的なハードウェア実装を可能にする。
Maddness MatMulの全体は、小さなコンピュータユニットとメモリによる効果的な実装を可能にする部分に分割され、MatMulタスクに汎用的に適用されながら、極端に効率が向上する。
市販の14nm技術で3nmにスケールし、161TOp/s/W@0.55Vのエネルギー効率を実現し、ResNet9を用いて92.5%以上のCIFAR-10のTop-1精度を実現した。
関連論文リスト
- GPU-accelerated Effective Hamiltonian Calculator [70.12254823574538]
本研究では,非摂動解析対角化法(NPAD)とマグナス拡大法に着想を得た数値解析手法を提案する。
私たちの数値技術は、オープンソースPythonパッケージとして、$rm qCH_eff$で利用可能です。
論文 参考訳(メタデータ) (2024-11-15T06:33:40Z) - Optimized Inference for 1.58-bit LLMs: A Time and Memory-Efficient Algorithm for Binary and Ternary Matrix Multiplication [8.779871128906787]
大規模言語モデル(LLM)は、高度な計算インフラに依存しながら推論の非効率さに悩まされる。
3次重み付き1.58ビットLLMの推論時間とメモリ効率を改善するアルゴリズムを提案する。
その結果,時間とメモリの両面でのアプローチの優位性が確認され,推論時間は最大29倍,メモリ使用量は最大6倍に短縮された。
論文 参考訳(メタデータ) (2024-11-10T04:56:14Z) - Scalable and Effective Arithmetic Tree Generation for Adder and Multiplier Designs [34.14349345891184]
我々は、加算器と乗算器という、最も一般的で基本的な2つの算術モジュールに焦点を当てる。
我々は、強化学習技術を用いて、それらの算術木構造を最適化する。
我々のアプローチはスピードを増し、サイズを最大49%、サイズを45%削減します。
論文 参考訳(メタデータ) (2024-05-10T18:22:54Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Power-Based Attacks on Spatial DNN Accelerators [11.536650557854324]
本稿では,一般的な8ビット数表現を用いた空間加速器の脆弱性について検討する。
複数のプロファイリングフェーズを持つテンプレートベースの新しいDPAは、たった40Kトレースで2D配列を完全に破壊することができる。
論文 参考訳(メタデータ) (2021-08-28T05:25:03Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Multiplying Matrices Without Multiplying [0.0]
行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。
本稿では,既存の手法を大幅に上回る学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-21T05:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。