論文の概要: MGS: Markov Greedy Sums for Accurate Low-Bitwidth Floating-Point Accumulation
- arxiv url: http://arxiv.org/abs/2504.09072v1
- Date: Sat, 12 Apr 2025 04:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:23.449944
- Title: MGS: Markov Greedy Sums for Accurate Low-Bitwidth Floating-Point Accumulation
- Title(参考訳): MGS:Markov Greedy Sums forcurcurate Low-Bitdth Floating-Point Accumulation
- Authors: Vikas Natesh, H. T. Kung, David Kong,
- Abstract要約: MGS(Markov Greedy Sums)は、ニューラルネットワーク計算において、低ビット幅浮動小数点生成物の精度を改善するための新しいアプローチである。
我々は,複数のニューラルネットワークの推測時間において8ビット浮動小数点誤差を最小限に抑えるアルゴリズムを設計,解析,実装する。
- 参考スコア(独自算出の注目度): 3.638431342539701
- License:
- Abstract: We offer a novel approach, MGS (Markov Greedy Sums), to improve the accuracy of low-bitwidth floating-point dot products in neural network computations. In conventional 32-bit floating-point summation, adding values with different exponents may lead to loss of precision in the mantissa of the smaller term, which is right-shifted to align with the larger term's exponent. Such shifting (a.k.a. 'swamping') is a significant source of numerical errors in accumulation when implementing low-bitwidth dot products (e.g., 8-bit floating point) as the mantissa has a small number of bits. We avoid most swamping errors by arranging the terms in dot product summation based on their exponents and summing the mantissas without overflowing the low-bitwidth accumulator. We design, analyze, and implement the algorithm to minimize 8-bit floating point error at inference time for several neural networks. In contrast to traditional sequential summation, our method has significantly lowered numerical errors, achieving classification accuracy on par with high-precision floating-point baselines for multiple image classification tasks. Our dMAC hardware units can reduce power consumption by up to 34.1\% relative to conventional MAC units.
- Abstract(参考訳): MGS(Markov Greedy Sums)は、ニューラルネットワーク計算において、低ビット幅浮動小数点積の精度を向上させるための新しい手法である。
従来の32ビット浮動小数点和法では、異なる指数を持つ値を追加すると、より小さな項のマティーサの精度が失われる可能性がある。
このようなシフト(つまり「スウォミング」)は、マティーサが少数のビットを持つため、低ビット幅のドット積(例えば8ビット浮動小数点)を実装する際に蓄積される数値誤差の重要な原因である。
我々は、ドット積和の項を指数に基づいて配置し、低ビット幅のアキュムレータをオーバーフローすることなく、マティッサを和らげることにより、ほとんどの湿潤誤差を回避する。
我々は,複数のニューラルネットワークの推測時間において8ビット浮動小数点誤差を最小限に抑えるアルゴリズムを設計,解析,実装する。
従来の逐次和法とは対照的に,複数の画像分類タスクに対して高精度な浮動小数点ベースラインと同等の分類精度を達成し,数値誤差を大幅に低減した。
我々のdMACハードウェアユニットは、従来のMACユニットと比較して最大34.1\%の消費電力を削減できる。
関連論文リスト
- Addition is All You Need for Energy-efficient Language Models [13.063639073834906]
浮動小数点乗算器は高い精度で1つの整数加算器で近似することができる。
浮動小数点数乗算と整数加算演算を近似した線形複雑度乗算L-Mulアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-01T17:53:28Z) - Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Deep Neural Networks to Correct Sub-Precision Errors in CFD [0.0]
いくつかの機械学習技術は、空間的離散化による誤差の修正に成功している。
畳み込みニューラルネットワークと完全に微分可能な数値解法を用いて、16ビットの算術演算を行い、密結合型ML-CFDハイブリッド解法を学習する。
16ビットの解法と比較して, ML-CFDハイブリッド解法は, 速度場の誤差蓄積を低減し, 高周波数での運動エネルギースペクトルを改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-09T02:32:40Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Bayesian Bits: Unifying Quantization and Pruning [73.27732135853243]
我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
提案手法をいくつかのベンチマーク・データセット上で実験的に検証し,プレナード付き混合精度ネットワークを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-05-14T16:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。