論文の概要: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training
- arxiv url: http://arxiv.org/abs/2211.10737v3
- Date: Fri, 30 Jun 2023 12:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 15:42:24.290104
- Title: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training
- Title(参考訳): 精度ブースター:dnnトレーニングのためのエポック駆動混合マニサブロック浮動小数点
- Authors: Simla Burcu Harma, Ayan Chakraborty, Babak Falsafi, Martin Jaggi,
Yunho Oh
- Abstract要約: 本手法では,6ビットのマンティッサを最後のエポック層と第1層にのみ使用し,4ビットのマンティッサを99.7%の価格で,エポック駆動混合マンティッサHBFP法を提案する。
解析モデルを用いて、HBFPトレーニングアクセラレータの算術密度をFP32と比較して最大21.3倍、他のSOTAフォーマットであるBfloat16と比較して最大4.4倍に向上し、FP32の精度を保留または上回ることを示す。
- 参考スコア(独自算出の注目度): 41.902978559634846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unprecedented growth in DNN model complexity, size, and amount of
training data has led to a commensurate increase in demand for computing and a
search for minimal encoding. Recent research advocates Hybrid Block Floating
Point (HBFP) to minimize silicon provisioning in accelerators by converting the
majority of arithmetic operations in training to 8-bit fixed point. In this
paper, we perform a full-scale exploration of the HBFP design space using
mathematical tools to study the interplay among various parameters and identify
opportunities for even smaller encodings across layers and epochs. Based on our
findings, we propose Accuracy Boosters, an epoch-driven mixed-mantissa HBFP
technique that uses 6-bit mantissas only in the last epoch and first/last
layers, and 4-bit mantissas for $99.7\%$ of all other arithmetic operations in
training. Using analytic models, we show Accuracy Boosters enable increasing
arithmetic density for an HBFP training accelerator by up to $21.3\times$
compared to FP32 and up to $4.4\times$ compared to another SOTA format
Bfloat16, while preserving or outperforming FP32 accuracy.
- Abstract(参考訳): DNNモデルの複雑さ、サイズ、トレーニングデータの量に対する前例のない成長は、コンピューティングの需要の増大と最小エンコーディングの探索につながった。
近年、HBFP(Hybrid Block Floating Point)は、計算演算の大部分を8ビットの固定点に変換することで、加速器のシリコン供給を最小限に抑えることを提唱している。
本稿では,HBFP設計空間を数学的ツールを用いて大規模に探索し,様々なパラメータ間の相互作用を研究し,層やエポックをまたいでさらに小さなエンコーディングを行う機会を特定する。
提案手法は,6ビットのマンティッサを最後のエポック層と第1層と第1層にのみ使用し,さらに4ビットのマンティッサを99.7 %の価格でトレーニングを行う。
解析モデルを用いて、HBFPトレーニングアクセラレータの算術密度をFP32と比較して最大21.3\times$、他のSOTAフォーマットであるBfloat16と比較して最大4.4\times$で増加し、FP32の精度を保留または上回ることを示す。
関連論文リスト
- BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。
BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文 参考訳(メタデータ) (2024-11-15T16:46:04Z) - Hadamard Domain Training with Integers for Class Incremental Quantized
Learning [1.4416751609100908]
継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。
本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。
行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
論文 参考訳(メタデータ) (2023-10-05T16:52:59Z) - Training Transformers with 4-bit Integers [21.861232105539933]
4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。
既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。
本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T02:45:01Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文 参考訳(メタデータ) (2022-07-20T06:27:06Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文 参考訳(メタデータ) (2020-02-08T04:58:33Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。