論文の概要: Addition is All You Need for Energy-efficient Language Models
- arxiv url: http://arxiv.org/abs/2410.00907v2
- Date: Wed, 2 Oct 2024 15:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 00:19:53.318186
- Title: Addition is All You Need for Energy-efficient Language Models
- Title(参考訳): エネルギー効率の良い言語モデルに必要な追加
- Authors: Hongyin Luo, Wei Sun,
- Abstract要約: 浮動小数点乗算器は高い精度で1つの整数加算器で近似することができる。
浮動小数点数乗算と整数加算演算を近似した線形複雑度乗算L-Mulアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 13.063639073834906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large neural networks spend most computation on floating point tensor multiplications. In this work, we find that a floating point multiplier can be approximated by one integer adder with high precision. We propose the linear-complexity multiplication L-Mul algorithm that approximates floating point number multiplication with integer addition operations. The new algorithm costs significantly less computation resource than 8-bit floating point multiplication but achieves higher precision. Compared to 8-bit floating point multiplications, the proposed method achieves higher precision but consumes significantly less bit-level computation. Since multiplying floating point numbers requires substantially higher energy compared to integer addition operations, applying the L-Mul operation in tensor processing hardware can potentially reduce 95% energy cost by element-wise floating point tensor multiplications and 80% energy cost of dot products. We calculated the theoretical error expectation of L-Mul, and evaluated the algorithm on a wide range of textual, visual, and symbolic tasks, including natural language understanding, structural reasoning, mathematics, and commonsense question answering. Our numerical analysis experiments agree with the theoretical error estimation, which indicates that L-Mul with 4-bit mantissa achieves comparable precision as float8_e4m3 multiplications, and L-Mul with 3-bit mantissa outperforms float8_e5m2. Evaluation results on popular benchmarks show that directly applying L-Mul to the attention mechanism is almost lossless. We further show that replacing all floating point multiplications with 3-bit mantissa L-Mul in a transformer model achieves equivalent precision as using float8_e4m3 as accumulation precision in both fine-tuning and inference.
- Abstract(参考訳): 大規模なニューラルネットワークは、ほとんどの計算を浮動小数点テンソル乗算に費やす。
本研究では,浮動小数点乗算器を高い精度で1つの整数加算器で近似できることを示す。
浮動小数点数乗算と整数加算演算を近似した線形複雑度乗算L-Mulアルゴリズムを提案する。
この新しいアルゴリズムは8ビット浮動小数点乗算よりも計算資源を著しく削減するが、精度は高い。
8ビット浮動小数点乗算と比較して,提案手法は高い精度を達成できるが,ビットレベルの計算は著しく少ない。
浮動小数点数の乗算は整数加算演算に比べてかなり高いエネルギーを必要とするため、テンソル処理ハードウェアにおけるL-Mul演算を適用することで、要素ワイド浮動小数点乗算による95%のエネルギーコストとドット積の80%のエネルギーコストを削減できる可能性がある。
我々はL-Mulの理論的誤り予測を計算し、自然言語理解、構造的推論、数学、常識的質問応答を含む幅広いテキスト・視覚・記号的タスクでアルゴリズムの評価を行った。
数値解析実験は, 4ビットマンティッサを持つL-Mulがfloat8_e4m3乗算と同等の精度を達成し, 3ビットマンティッサを持つL-Mulがfloat8_e5m2より優れていることを示す理論的誤差推定と一致した。
評価結果は,L-Mulをアテンション機構に直接適用することはほとんど損失がないことを示している。
さらに, 変圧器モデルにおける浮動小数点乗算を3ビットマティッサL-Mulに置き換えることにより, 微調整と推論の両方において, 積算精度としてfloat8_e4m3を用いて等価な精度が得られることを示す。
関連論文リスト
- Speeding up and reducing memory usage for scientific machine learning
via mixed precision [3.746841257785099]
偏微分方程式のためのニューラルネットワークのトレーニングには、大量のメモリと計算資源が必要である。
計算効率の探索において,半精度(float16)を用いたニューラルネットワークのトレーニングが注目されている。
本研究では,float16とfloat32の数値形式を組み合わせた混合精度について検討し,メモリ使用量の削減と計算速度の向上を図る。
実験の結果,混合精度トレーニングはトレーニング時間とメモリ要求を大幅に削減するだけでなく,モデル精度も維持することがわかった。
論文 参考訳(メタデータ) (2024-01-30T00:37:57Z) - Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - An Efficient Summation Algorithm for the Accuracy, Convergence and
Reproducibility of Parallel Numerical Methods [0.0]
我々は浮動小数点数の列をまとめる新しい並列アルゴリズムを導入した。
プロセッサ数で簡単にスケールアップできるこのアルゴリズムは、まず同じ指数の数を加算する。
この記事では、いくつかの特性に関して、その効率を広範囲に分析する。
論文 参考訳(メタデータ) (2022-05-11T08:31:48Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - Deep Neural Network Training without Multiplications [0.0]
ResNetはこの操作を競合する分類精度で訓練できることを示す。
この方法は、ディープニューラルネットワークトレーニングと推論における乗算の排除を可能にする。
論文 参考訳(メタデータ) (2020-12-07T05:40:50Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - NITI: Training Integer Neural Networks Using Integer-only Arithmetic [4.361357921751159]
我々は,整数演算のみを用いて計算を行う,効率的なディープニューラルネットワークトレーニングフレームワークであるNITIを提案する。
ネイティブ8ビット整数演算を用いたNITIの概念実証ソフトウェア実装について述べる。
NITIは8ビット整数ストレージと計算を用いてMNISTとCIFAR10データセットの無視可能な精度劣化を実現する。
論文 参考訳(メタデータ) (2020-09-28T07:41:36Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。