論文の概要: Stella Nera: A Differentiable Maddness-Based Hardware Accelerator for Efficient Approximate Matrix Multiplication
- arxiv url: http://arxiv.org/abs/2311.10207v2
- Date: Fri, 25 Jul 2025 07:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.640094
- Title: Stella Nera: A Differentiable Maddness-Based Hardware Accelerator for Efficient Approximate Matrix Multiplication
- Title(参考訳): Stella Nera: 効率的な近似行列乗算のための微分可能なマッドネスベースハードウェア加速器
- Authors: Jannis Schönleber, Lukas Cavigelli, Matteo Perotti, Luca Benini, Renzo Andri,
- Abstract要約: 我々は、マドネスをベースとした最初の加速器Stella Neraを161TOp/s/W@0.55Vで、従来のMatchMul加速器の25倍のエネルギー効率を実現した。
さらに、微分可能な近似でマッドネスを強化し、勾配に基づく微調整を可能にし、CIFAR-10上で92.5%のTop-1精度のエンドツーエンド性能を実現する。
- 参考スコア(独自算出の注目度): 11.578172820548247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence has surged in recent years, with advancements in machine learning rapidly impacting nearly every area of life. However, the growing complexity of these models has far outpaced advancements in available hardware accelerators, leading to significant computational and energy demands, primarily due to matrix multiplications, which dominate the compute workload. Maddness (i.e., Multiply-ADDitioN-lESS) presents a hash-based version of product quantization, which renders matrix multiplications into lookups and additions, eliminating the need for multipliers entirely. We present Stella Nera, the first Maddness-based accelerator achieving an energy efficiency of 161 TOp/s/W@0.55V, 25x better than conventional MatMul accelerators due to its small components and reduced computational complexity. We further enhance Maddness with a differentiable approximation, allowing for gradient-based fine-tuning and achieving an end-to-end performance of 92.5% Top-1 accuracy on CIFAR-10.
- Abstract(参考訳): 人工知能は近年急増しており、機械学習の進歩は、ほぼすべての生活領域に急速に影響を与えている。
しかし、これらのモデルの複雑さの増大は、利用可能なハードウェアアクセラレータの進歩をはるかに上回り、主に計算ワークロードを支配している行列乗算によって、計算とエネルギーの要求が大幅に増大した。
マッドネス(Multiply-ADDitioN-lESS)は、行列乗算をルックアップと加算にレンダリングし、乗算器の必要性を完全に排除する製品量子化のハッシュベースのバージョンを提示する。
我々は、マドネスをベースとした最初の加速器Stella Neraを161TOp/s/W@0.55Vで、従来のMatchMul加速器の25倍のエネルギー効率を実現した。
さらに、微分可能な近似によりマッドネスを強化し、勾配に基づく微調整を可能にし、CIFAR-10上で92.5%のTop-1精度のエンドツーエンド性能を実現する。
関連論文リスト
- QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Exploring the Performance Improvement of Tensor Processing Engines through Transformation in the Bit-weight Dimension of MACs [8.17483100683993]
我々は,乗算器(MAC)のビット重み次元に着目した,行列乗算に関する新しいハードウェア視点を導入する。
タイミング,面積,消費電力を改善する4つの最適化手法を提案する。
本手法は, 1.27x, 1.28x, 1.56x, 1.44xの面積効率向上と1.04x, 1.56x, 1.49x, 1.20xのエネルギー効率向上を実現する。
論文 参考訳(メタデータ) (2025-03-08T21:21:23Z) - Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners [72.37408197157453]
近年の進歩により、大規模言語モデル(LLM)の性能は、テスト時に計算資源をスケーリングすることで大幅に向上することが示されている。
複雑性が低いモデルは、より優れた生成スループットを活用して、固定された計算予算のために同様の大きさのトランスフォーマーを上回りますか?
この問題に対処し、強い四分法的推論器の欠如を克服するために、事前訓練された変換器から純およびハイブリッドのマンバモデルを蒸留する。
論文 参考訳(メタデータ) (2025-02-27T18:08:16Z) - THOR: A Non-Speculative Value Dependent Timing Side Channel Attack Exploiting Intel AMX [0.20971479389679332]
我々はIntel AMXに新しい値依存型タイミング側チャネル脆弱性を導入する。
我々は、ニューラルネットワークの重みの空間性を推定できるソフトウェアベースの、価値に依存したタイミングサイドチャネル攻撃を実証する。
攻撃方法は,64個の入力要素に割り当てられた重みの空間を50分以内で完全に回復することができる。
論文 参考訳(メタデータ) (2025-02-24T21:12:57Z) - Leveraging ASIC AI Chips for Homomorphic Encryption [12.209134343914537]
ホモモルフィック暗号化(HE)は強力なプライバシー保証を提供するが、平文での計算よりもはるかに多くのリソースを必要とする。
このレイテンシ問題を緩和するためにアクセラレータが登場したが、ASICのコストが高い。
HEプリミティブは、すでにクラウドに広くデプロイされているTPUのような既存のASIC AIアクセラレータ上で、AIオペレータに変換され、アクセラレーションされることを示す。
論文 参考訳(メタデータ) (2025-01-13T04:08:14Z) - GPU-accelerated Effective Hamiltonian Calculator [70.12254823574538]
本研究では,非摂動解析対角化法(NPAD)とマグナス拡大法に着想を得た数値解析手法を提案する。
私たちの数値技術は、オープンソースPythonパッケージとして、$rm qCH_eff$で利用可能です。
論文 参考訳(メタデータ) (2024-11-15T06:33:40Z) - Optimized Inference for 1.58-bit LLMs: A Time and Memory-Efficient Algorithm for Binary and Ternary Matrix Multiplication [8.779871128906787]
大規模言語モデル(LLM)は、高度な計算インフラに依存しながら推論の非効率さに悩まされる。
3次重み付き1.58ビットLLMの推論時間とメモリ効率を改善するアルゴリズムを提案する。
その結果,時間とメモリの両面でのアプローチの優位性が確認され,推論時間は最大29倍,メモリ使用量は最大6倍に短縮された。
論文 参考訳(メタデータ) (2024-11-10T04:56:14Z) - Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA [10.630802853096462]
現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算演算に依存している。
本稿ではFPGA上の高スループット,スケーラブル,エネルギー効率の非要素的行列乗算ユニットを提案する。
AMUを使用すると、FPGAベースの量子ニューラルネットワーク(QNN)アクセラレーターの最先端ソリューションよりも最大9倍高いスループットと112倍高いエネルギー効率が得られる。
論文 参考訳(メタデータ) (2024-07-02T15:28:10Z) - Scalable and Effective Arithmetic Tree Generation for Adder and Multiplier Designs [34.14349345891184]
我々は、加算器と乗算器という、最も一般的で基本的な2つの算術モジュールに焦点を当てる。
我々は、強化学習技術を用いて、それらの算術木構造を最適化する。
我々のアプローチはスピードを増し、サイズを最大49%、サイズを45%削減します。
論文 参考訳(メタデータ) (2024-05-10T18:22:54Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - A Deep Learning Inference Scheme Based on Pipelined Matrix
Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。
その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-10T17:31:27Z) - Power-Based Attacks on Spatial DNN Accelerators [11.536650557854324]
本稿では,一般的な8ビット数表現を用いた空間加速器の脆弱性について検討する。
複数のプロファイリングフェーズを持つテンプレートベースの新しいDPAは、たった40Kトレースで2D配列を完全に破壊することができる。
論文 参考訳(メタデータ) (2021-08-28T05:25:03Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Multiplying Matrices Without Multiplying [0.0]
行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。
本稿では,既存の手法を大幅に上回る学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-21T05:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。