論文の概要: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training
- arxiv url: http://arxiv.org/abs/2211.10737v1
- Date: Sat, 19 Nov 2022 16:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:43:48.073875
- Title: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training
- Title(参考訳): 精度ブースター:dnnトレーニングのためのエポック駆動混合マニサブロック浮動小数点
- Authors: Simla Burcu Harma, Canberk S\"onmez, Babak Falsafi, Martin Jaggi,
Yunho Oh
- Abstract要約: そこで本研究では,6ビットマンティッサのみを使用し,99.7%の算術演算を4ビットマンティッサに変換するエポック駆動混合マンティッサHBFPを提案する。
高精度ブースターは、FP32と比較してHBFPトレーニングアクセラレータのシリコン供給を16.98タイムで削減し、FP32の精度を保留または上回る。
- 参考スコア(独自算出の注目度): 41.902978559634846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unprecedented growth in DNN model complexity, size and the amount of
training data have led to a commensurate increase in demand for computing and a
search for minimal encoding. Recent research advocates Hybrid Block
Floating-Point (HBFP) as a technique that minimizes silicon provisioning in
accelerators by converting the majority of arithmetic operations in training to
8-bit fixed-point. In this paper, we perform a full-scale exploration of the
HBFP design space including minimal mantissa encoding, varying block sizes, and
mixed mantissa bit-width across layers and epochs. We propose \emph{Accuracy
Boosters}, an epoch-driven mixed-mantissa HBFP that uses 6-bit mantissa only in
the last epoch and converts $99.7\%$ of all arithmetic operations in training
to 4-bit mantissas. Accuracy Boosters enable reducing silicon provisioning for
an HBFP training accelerator by $16.98\times$ as compared to FP32, while
preserving or outperforming FP32 accuracy.
- Abstract(参考訳): DNNモデルの複雑さ、サイズ、トレーニングデータの量に対する前例のない成長は、コンピューティングの需要の増大と最小限のエンコーディングの探索につながった。
近年,HBFP(Hybrid Block Floating-Point)は,演算処理の大部分を8ビット固定点に変換することで,加速器のシリコン供給を最小化する技術として提唱されている。
本稿では,HBFP設計空間を大規模に探索し,最小マンティサ符号化,ブロックサイズの変化,層間およびエポック間の混合マンティサビット幅について検討する。
我々は,6ビットのマンティッサのみを使用し,訓練中の算術演算の99.7 %$を4ビットのマンティッサに変換するエポック駆動混合マンティッサHBFPである \emph{Accuracy Boosters} を提案する。
高精度ブースターは、FP32と比較してHBFPトレーニングアクセラレータのシリコン供給を16.98\times$で削減し、FP32の精度を保留または上回る。
関連論文リスト
- Speeding up and reducing memory usage for scientific machine learning
via mixed precision [3.746841257785099]
偏微分方程式のためのニューラルネットワークのトレーニングには、大量のメモリと計算資源が必要である。
計算効率の探索において,半精度(float16)を用いたニューラルネットワークのトレーニングが注目されている。
本研究では,float16とfloat32の数値形式を組み合わせた混合精度について検討し,メモリ使用量の削減と計算速度の向上を図る。
実験の結果,混合精度トレーニングはトレーニング時間とメモリ要求を大幅に削減するだけでなく,モデル精度も維持することがわかった。
論文 参考訳(メタデータ) (2024-01-30T00:37:57Z) - Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文 参考訳(メタデータ) (2023-09-22T17:26:19Z) - Speeding up Fourier Neural Operators via Mixed Precision [94.01161800203221]
フーリエニューラル作用素 (FNO) は偏微分方程式 (PDE) 解作用素の代理写像を学習する強力な手法である。
高解像度のデータポイントを必要とする多くの現実世界アプリケーションにとって、トレーニング時間とメモリ使用量は重大なボトルネックとなる。
本研究では,FNOの混合精度トレーニングの数値安定性について検討し,トレーニング時間とメモリ使用量を大幅に削減するトレーニングルーチンを考案した。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - FlexBlock: A Flexible DNN Training Accelerator with Multi-Mode Block
Floating Point Support [8.596477111386083]
本稿では,複数のBFP精度を活用してトレーニングを高速化するアルゴリズムに基づく。
我々はFlexBlockと呼ばれる3つの異なるBFP精度モードをサポートするフレキシブルDNNトレーニングアクセラレータを開発した。
CIFAR, ImageNet, WMT14データセット上でよく知られたDNNを用いてFlexBlockアーキテクチャの有効性を評価する。
論文 参考訳(メタデータ) (2022-03-13T15:05:34Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。