論文の概要: FERMI-ML: A Flexible and Resource-Efficient Memory-In-Situ SRAM Macro for TinyML acceleration
- arxiv url: http://arxiv.org/abs/2511.12544v1
- Date: Sun, 16 Nov 2025 10:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.30712
- Title: FERMI-ML: A Flexible and Resource-Efficient Memory-In-Situ SRAM Macro for TinyML acceleration
- Title(参考訳): FERMI-ML: TinyMLアクセラレーションのためのフレキシブルでリソース効率の良いSRAMマクロ
- Authors: Mukul Lokhande, Akash Sankhe, S. V. Jaya Chand, Santosh Kumar Vishvakarma,
- Abstract要約: FERMI-MLは、混合精度のTinyMLワークロードをサポートするMemory-In-Situマクロである。
65nmでは350MHz、0.9Vでは1.93TOPS、エネルギー効率は364TOPS/Wとなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for low-power and area-efficient TinyML inference on AIoT devices necessitates memory architectures that minimise data movement while sustaining high computational efficiency. This paper presents FERMI-ML, a Flexible and Resource-Efficient Memory-In-Situ (MIS) SRAM macro designed for TinyML acceleration. The proposed 9T XNOR-based RX9T bit-cell integrates a 5T storage cell with a 4T XNOR compute unit, enabling variable-precision MAC and CAM operations within the same array. A 22-transistor (C22T) compressor-tree-based accumulator facilitates logarithmic 1-64-bit MAC computation with reduced delay and power compared to conventional adder trees. The 4 KB macro achieves dual functionality for in-situ computation and CAM-based lookup operations, supporting Posit-4 or FP-4 precision. Post-layout results at 65 nm show operation at 350 MHz with 0.9 V, delivering a throughput of 1.93 TOPS and an energy efficiency of 364 TOPS/W, while maintaining a Quality-of-Result (QoR) above 97.5% with InceptionV4 and ResNet-18. FERMI-ML thus demonstrates a compact, reconfigurable, and energy-aware digital Memory-In-Situ macro capable of supporting mixed-precision TinyML workloads.
- Abstract(参考訳): AIoTデバイス上での低消費電力かつ領域効率のTinyML推論の需要の増加は、高い計算効率を維持しながらデータ移動を最小限にするメモリアーキテクチャを必要とする。
本稿では,TinyMLアクセラレーション用に設計されたフレキシブルかつ資源効率のよいメモリインサイト(MIS)SRAMマクロFERMI-MLを提案する。
提案した9T XNORベースのRX9Tビットセルは、5Tストレージセルを4T XNOR演算ユニットに統合し、同一配列内での可変精度MACとCAM操作を可能にする。
22-transistor (C22T) 圧縮木を用いたアキュムレータは、従来の加算木に比べて遅延と電力を低減した対数1-64ビットMAC計算を容易にする。
4KBのマクロは、in-situ計算とCAMベースのルックアップ演算の二重機能を実現し、Posit-4やFP-4の精度をサポートする。
65nmでのポストレイアウトの結果、350MHzで0.9Vで動作し、1.93TOPSのスループットと364TOPS/Wのエネルギー効率を実現し、InceptionV4とResNet-18で97.5%以上の品質(QoR)を維持した。
FERMI-MLは、コンパクトで、再構成可能で、エネルギーを意識したデジタルメモリ-In-Situマクロで、混合精度のTinyMLワークロードをサポートする。
関連論文リスト
- LFM2 Technical Report [87.58431408281973]
LFM2は、デバイス上での効率的なデプロイと強力なタスク機能を実現するために設計された、Liquid Foundation Modelsのファミリーである。
LFM2ファミリーは350M-8.3Bパラメータをカバーしており、密度の高いモデル(350M, 700M, 1.2B, 2.6B)と試験用混合物(合計8.3B, 1.5B)を含んでいる。
視覚遅延タスクのためのLFM2-VL,音声のためのLFM2-Audio,検索のためのLFM2-ColBERTを構築した。
論文 参考訳(メタデータ) (2025-11-28T17:56:35Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - A 137.5 TOPS/W SRAM Compute-in-Memory Macro with 9-b Memory
Cell-Embedded ADCs and Signal Margin Enhancement Techniques for AI Edge
Applications [20.74979295607707]
CIMマクロは4x4ビットMAC演算を実行し、9ビット符号付き出力を出力できる。
細胞の無害放電枝を用いて、時間変調MACと9ビットADC読み出し操作を適用する。
論文 参考訳(メタデータ) (2023-07-12T06:20:19Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - RedMule: A Mixed-Precision Matrix-Matrix Operation Engine for Flexible
and Energy-Efficient On-Chip Linear Algebra and TinyML Training Acceleration [15.869673535117032]
現在のトレーニングアルゴリズムは、精度とダイナミックレンジの要求を満たすために浮動小数点行列演算に依存している。
RedMulEは、多精度浮動小数点一般行列演算(GEMM-Ops)加速のために考案された、低消費電力の特殊アクセラレータである。
RedMulE は FP16 と FP8 で 58.5 GFLOPS と 117 GFLOPS をそれぞれ達成し、計算要素の配列を99.4% 利用している。
論文 参考訳(メタデータ) (2023-01-10T11:07:16Z) - A Charge Domain P-8T SRAM Compute-In-Memory with Low-Cost DAC/ADC
Operation for 4-bit Input Processing [4.054285623919103]
本稿では,PMOS ベースの 8T (P-8T) Compute-In-Memory (CIM) アーキテクチャを提案する。
4ビットの入力アクティベーションと8ビットの重みの間の乗算累積(MAC)演算を効率よく行う。
28nm CMOSプロセスを用いた256X80 P-8T CIMマクロ実装は、91.46%と66.67%の精度を示している。
論文 参考訳(メタデータ) (2022-11-29T08:15:27Z) - A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface [16.228299091691873]
コンピューティング・イン・メモリ(Computer-in-Memory, CiM)は、メモリ内の多重累積演算を可能にする、有望な緩和手法である。
この研究は、CIFAR-10データセットで88.6%の精度を示しながら、51.2GOPSのスループットと10.3TOPS/Wエネルギー効率を達成する。
論文 参考訳(メタデータ) (2022-11-23T07:52:10Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and
Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。
エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。
65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文 参考訳(メタデータ) (2021-07-06T04:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。