論文の概要: Precision-Scalable Microscaling Datapaths with Optimized Reduction Tree for Efficient NPU Integration
- arxiv url: http://arxiv.org/abs/2511.06313v1
- Date: Sun, 09 Nov 2025 10:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.882002
- Title: Precision-Scalable Microscaling Datapaths with Optimized Reduction Tree for Efficient NPU Integration
- Title(参考訳): 効率的なNPU統合のための最適化木を用いた高精度スケーラブルマイクロスケーリングデータパス
- Authors: Stef Cuyckens, Xiaoling Yi, Robin Geens, Joren Dumoulin, Martin Wiesner, Chao Fang, Marian Verhelst,
- Abstract要約: 本稿では, MX MAC に対して, 両方のアプローチの利点を組み合わせた, ハイブリッド精度・スケール可能な削減木を提案する。
我々は、これらのMACの8x8配列を最先端(SotA)のNPU統合プラットフォームであるSNAXに統合し、効率的な制御とデータ転送を提供する。
MXINT8, MXFP8/6, MXFP4のスループットは64, 256, 512 GOPSでそれぞれ657, 1438-1675, 4065 GOPS/Wのエネルギー効率を実現している。
- 参考スコア(独自算出の注目度): 3.146407420010677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging continual learning applications necessitate next-generation neural processing unit (NPU) platforms to support both training and inference operations. The promising Microscaling (MX) standard enables narrow bit-widths for inference and large dynamic ranges for training. However, existing MX multiply-accumulate (MAC) designs face a critical trade-off: integer accumulation requires expensive conversions from narrow floating-point products, while FP32 accumulation suffers from quantization losses and costly normalization. To address these limitations, we propose a hybrid precision-scalable reduction tree for MX MACs that combines the benefits of both approaches, enabling efficient mixed-precision accumulation with controlled accuracy relaxation. Moreover, we integrate an 8x8 array of these MACs into the state-of-the-art (SotA) NPU integration platform, SNAX, to provide efficient control and data transfer to our optimized precision-scalable MX datapath. We evaluate our design both on MAC and system level and compare it to the SotA. Our integrated system achieves an energy efficiency of 657, 1438-1675, and 4065 GOPS/W, respectively, for MXINT8, MXFP8/6, and MXFP4, with a throughput of 64, 256, and 512 GOPS.
- Abstract(参考訳): 新たな継続学習アプリケーションは、トレーニングと推論操作の両方をサポートするために、次世代のニューラル処理ユニット(NPU)プラットフォームを必要とする。
有望なMicroscaling(MX)標準は、推論のための狭いビット幅とトレーニングのための大きなダイナミックレンジを可能にする。
しかし、既存のMX乗算積 (MAC) の設計は重要なトレードオフに直面しており、整数の累積は狭い浮動小数点積からの高価な変換を必要とし、FP32の累積は量子化損失と高価な正規化に悩まされている。
これらの制約に対処するため, MX MAC のハイブリッド高精度化木を提案し, 両手法の利点を組み合わせ, 制御精度緩和による効率の良い混合精度蓄積を実現する。
さらに、これらのMACの8x8配列を最先端(SotA)のNPU統合プラットフォームであるSNAXに統合し、最適化された精度でスケール可能なMXデータパスへの効率的な制御とデータ転送を提供する。
MACとシステムレベルで設計を評価し,SotAと比較した。
MXINT8, MXFP8/6, MXFP4のスループットは64, 256, 512 GOPSでそれぞれ657, 1438-1675, 4065 GOPS/Wのエネルギー効率を実現している。
関連論文リスト
- INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models [3.305409455598179]
量子化は大規模言語モデル(LLM)の推論を著しく加速する
近年のウェイトアクティベーション量子化の進歩は、主にウェイトとアクティベーションの両方をINT4フォーマットにマッピングすることに焦点を当てている。
マイクロスケーリング(MX)データフォーマットをベースとした混合精度量子化アルゴリズムと行列乗算カーネルであるMicroMixを提案する。
論文 参考訳(メタデータ) (2025-08-04T12:22:39Z) - MPX: Mixed Precision Training for JAX [56.49234478198188]
混合精度トレーニングは、ニューラルネットワークトレーニングの効率を高めるために必要なツールとして登場した。
本稿では,大規模ニューラルネットワークのトレーニングを簡略化し,高速化するJAX用混合精度トレーニングツールボックスMPXを提案する。
MPXはEquinoxやFraxといった一般的なツールボックスとシームレスに統合され、完全な精度パイプラインを混合精度バージョンに変換することができる。
論文 参考訳(メタデータ) (2025-07-04T05:47:04Z) - A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit
for Analog In-Memory Computing [10.992736723518036]
固定点演算に基づくNMPU(Near-Memory Digital Processing Unit)を提案する。
従来の手法よりも競争精度と高い計算スループットを実現している。
我々は,AIMCチップのデータを用いてNMPUの有効性を検証するとともに,提案したNMPUを用いたシミュレーションAIMCシステムが,既存のFP16ベースの実装よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-12T10:30:45Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and
Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。
エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。
65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文 参考訳(メタデータ) (2021-07-06T04:59:16Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。