論文の概要: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training
- arxiv url: http://arxiv.org/abs/2211.10737v3
- Date: Fri, 30 Jun 2023 12:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 15:42:24.290104
- Title: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training
- Title(参考訳): 精度ブースター:dnnトレーニングのためのエポック駆動混合マニサブロック浮動小数点
- Authors: Simla Burcu Harma, Ayan Chakraborty, Babak Falsafi, Martin Jaggi,
Yunho Oh
- Abstract要約: 本手法では,6ビットのマンティッサを最後のエポック層と第1層にのみ使用し,4ビットのマンティッサを99.7%の価格で,エポック駆動混合マンティッサHBFP法を提案する。
解析モデルを用いて、HBFPトレーニングアクセラレータの算術密度をFP32と比較して最大21.3倍、他のSOTAフォーマットであるBfloat16と比較して最大4.4倍に向上し、FP32の精度を保留または上回ることを示す。
- 参考スコア(独自算出の注目度): 41.902978559634846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unprecedented growth in DNN model complexity, size, and amount of
training data has led to a commensurate increase in demand for computing and a
search for minimal encoding. Recent research advocates Hybrid Block Floating
Point (HBFP) to minimize silicon provisioning in accelerators by converting the
majority of arithmetic operations in training to 8-bit fixed point. In this
paper, we perform a full-scale exploration of the HBFP design space using
mathematical tools to study the interplay among various parameters and identify
opportunities for even smaller encodings across layers and epochs. Based on our
findings, we propose Accuracy Boosters, an epoch-driven mixed-mantissa HBFP
technique that uses 6-bit mantissas only in the last epoch and first/last
layers, and 4-bit mantissas for $99.7\%$ of all other arithmetic operations in
training. Using analytic models, we show Accuracy Boosters enable increasing
arithmetic density for an HBFP training accelerator by up to $21.3\times$
compared to FP32 and up to $4.4\times$ compared to another SOTA format
Bfloat16, while preserving or outperforming FP32 accuracy.
- Abstract(参考訳): DNNモデルの複雑さ、サイズ、トレーニングデータの量に対する前例のない成長は、コンピューティングの需要の増大と最小エンコーディングの探索につながった。
近年、HBFP(Hybrid Block Floating Point)は、計算演算の大部分を8ビットの固定点に変換することで、加速器のシリコン供給を最小限に抑えることを提唱している。
本稿では,HBFP設計空間を数学的ツールを用いて大規模に探索し,様々なパラメータ間の相互作用を研究し,層やエポックをまたいでさらに小さなエンコーディングを行う機会を特定する。
提案手法は,6ビットのマンティッサを最後のエポック層と第1層と第1層にのみ使用し,さらに4ビットのマンティッサを99.7 %の価格でトレーニングを行う。
解析モデルを用いて、HBFPトレーニングアクセラレータの算術密度をFP32と比較して最大21.3\times$、他のSOTAフォーマットであるBfloat16と比較して最大4.4\times$で増加し、FP32の精度を保留または上回ることを示す。
関連論文リスト
- Speeding up and reducing memory usage for scientific machine learning
via mixed precision [3.746841257785099]
偏微分方程式のためのニューラルネットワークのトレーニングには、大量のメモリと計算資源が必要である。
計算効率の探索において,半精度(float16)を用いたニューラルネットワークのトレーニングが注目されている。
本研究では,float16とfloat32の数値形式を組み合わせた混合精度について検討し,メモリ使用量の削減と計算速度の向上を図る。
実験の結果,混合精度トレーニングはトレーニング時間とメモリ要求を大幅に削減するだけでなく,モデル精度も維持することがわかった。
論文 参考訳(メタデータ) (2024-01-30T00:37:57Z) - Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文 参考訳(メタデータ) (2023-09-22T17:26:19Z) - Speeding up Fourier Neural Operators via Mixed Precision [94.01161800203221]
フーリエニューラル作用素 (FNO) は偏微分方程式 (PDE) 解作用素の代理写像を学習する強力な手法である。
高解像度のデータポイントを必要とする多くの現実世界アプリケーションにとって、トレーニング時間とメモリ使用量は重大なボトルネックとなる。
本研究では,FNOの混合精度トレーニングの数値安定性について検討し,トレーニング時間とメモリ使用量を大幅に削減するトレーニングルーチンを考案した。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - FlexBlock: A Flexible DNN Training Accelerator with Multi-Mode Block
Floating Point Support [8.596477111386083]
本稿では,複数のBFP精度を活用してトレーニングを高速化するアルゴリズムに基づく。
我々はFlexBlockと呼ばれる3つの異なるBFP精度モードをサポートするフレキシブルDNNトレーニングアクセラレータを開発した。
CIFAR, ImageNet, WMT14データセット上でよく知られたDNNを用いてFlexBlockアーキテクチャの有効性を評価する。
論文 参考訳(メタデータ) (2022-03-13T15:05:34Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。