論文の概要: RedMule: A Mixed-Precision Matrix-Matrix Operation Engine for Flexible
and Energy-Efficient On-Chip Linear Algebra and TinyML Training Acceleration
- arxiv url: http://arxiv.org/abs/2301.03904v2
- Date: Sat, 6 May 2023 18:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:29:14.058022
- Title: RedMule: A Mixed-Precision Matrix-Matrix Operation Engine for Flexible
and Energy-Efficient On-Chip Linear Algebra and TinyML Training Acceleration
- Title(参考訳): RedMule: フレキシブルでエネルギー効率の良いオンチップ線形代数とTinyMLトレーニング加速のための混合精度マトリックス演算エンジン
- Authors: Yvan Tortorella, Luca Bertaccini, Luca Benini, Davide Rossi, Francesco
Conti
- Abstract要約: 現在のトレーニングアルゴリズムは、精度とダイナミックレンジの要求を満たすために浮動小数点行列演算に依存している。
RedMulEは、多精度浮動小数点一般行列演算(GEMM-Ops)加速のために考案された、低消費電力の特殊アクセラレータである。
RedMulE は FP16 と FP8 で 58.5 GFLOPS と 117 GFLOPS をそれぞれ達成し、計算要素の配列を99.4% 利用している。
- 参考スコア(独自算出の注目度): 15.869673535117032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing interest in TinyML, i.e., near-sensor machine learning on
power budgets of a few tens of mW, is currently pushing toward enabling
TinyML-class training as opposed to inference only. Current training
algorithms, based on various forms of error and gradient backpropagation, rely
on floating-point matrix operations to meet the precision and dynamic range
requirements. So far, the energy and power cost of these operations has been
considered too high for TinyML scenarios. This paper addresses the open
challenge of near-sensor training on a few mW power budget and presents RedMulE
- Reduced-Precision Matrix Multiplication Engine, a low-power specialized
accelerator conceived for multi-precision floating-point General Matrix-Matrix
Operations (GEMM-Ops) acceleration, supporting FP16, as well as hybrid FP8
formats, with {sign, exponent, mantissa}=({1,4,3}, {1,5,2}). We integrate
RedMule into a Parallel Ultra-Low-Power (PULP) cluster containing eight
energy-efficient RISC-V cores sharing a tightly-coupled data memory and
implement the resulting system in a 22 nm technology. At its best efficiency
point (@ 470 MHz, 0.65 V), the RedMulE-augmented PULP cluster achieves 755
GFLOPS/W and 920 GFLOPS/W during regular General Matrix-Matrix Multiplication
(GEMM), and up to 1.19 TFLOPS/W and 1.67 TFLOPS/W when executing GEMM-Ops,
respectively, for FP16 and FP8 input/output tensors. In its best performance
point (@ 613 MHz, 0.8 V), RedMulE achieves up to 58.5 GFLOPS and 117 GFLOPS for
FP16 and FP8, respectively, with 99.4% utilization of the array of Computing
Elements and consuming less than 60 mW on average, thus enabling on-device
training of deep learning models in TinyML application scenarios while
retaining the flexibility to tackle other classes of common linear algebra
problems efficiently.
- Abstract(参考訳): TinyMLへの関心の高まり、すなわち数十mWの電力予算に対するニアセンサー機械学習は、現在推論のみではなく、TinyMLクラスのトレーニングの実現を目指している。
現在のトレーニングアルゴリズムは、様々な形式の誤りと勾配バックプロパゲーションに基づいており、精度とダイナミックレンジ要件を満たすために浮動小数点行列演算に依存している。
これまでのところ、これらのオペレーションのエネルギーと電力コストはTinyMLのシナリオでは高すぎると考えられてきた。
本稿では,いくつかのmwパワー予算における近距離センサトレーニングのオープン課題に対処し,マルチ精度浮動小数点一般行列行列演算(gemm-ops)のための低消費電力専用加速器であるredmule - reduced-precision matrix multiplication engine(redmule - reduced-precision matrix multiplication engine)を提案する。
我々はRedMuleを8つのエネルギー効率の高いRISC-Vコアを含むParallel Ultra-Low-Power(PULP)クラスタに統合し、密結合したデータメモリを共用し、22nmで実装した。
GEMM(General Matrix Multiplication)において、RedMulEで強化されたPULPクラスタは755 GFLOPS/Wと920 GFLOPS/Wを達成し、GEMM-Opsの実行時にそれぞれ1.19 TFLOPS/Wと1.67 TFLOPS/Wを達成している。
613MHz、0.8Vの最高のパフォーマンスポイントにおいて、RedMulEはFP16とFP8の最大58.5GFLOPSと117GFLOPSをそれぞれ達成し、計算要素の配列を99.4%利用し、平均60mW未満を消費している。
関連論文リスト
- Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - LearningGroup: A Real-Time Sparse Training on FPGA via Learnable Weight
Grouping for Multi-Agent Reinforcement Learning [2.0625936401496237]
マルチエージェント強化学習(MARL)は,対話型人工知能システムを構築するための強力な技術である。
本稿では,学習グループというリアルタイムスパース学習促進システムを提案する。
本システムでは,スパースデータ生成のサイクル時間とメモリフットプリントを最大5.72倍,6.81倍まで最小化する。
論文 参考訳(メタデータ) (2022-10-29T15:09:34Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。