論文の概要: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training
- arxiv url: http://arxiv.org/abs/2211.10737v2
- Date: Tue, 22 Nov 2022 10:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:14:39.752531
- Title: Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for
DNN Training
- Title(参考訳): 精度ブースター:dnnトレーニングのためのエポック駆動混合マニサブロック浮動小数点
- Authors: Simla Burcu Harma, Canberk S\"onmez, Babak Falsafi, Martin Jaggi,
Yunho Oh
- Abstract要約: そこで本研究では,6ビットマンティッサのみを使用し,99.7%の算術演算を4ビットマンティッサに変換するエポック駆動混合マンティッサHBFPを提案する。
高精度ブースターは、FP32と比較してHBFPトレーニングアクセラレータのシリコン供給を16.98タイムで削減し、FP32の精度を保留または上回る。
- 参考スコア(独自算出の注目度): 41.902978559634846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unprecedented growth in DNN model complexity, size and the amount of
training data have led to a commensurate increase in demand for computing and a
search for minimal encoding. Recent research advocates Hybrid Block
Floating-Point (HBFP) as a technique that minimizes silicon provisioning in
accelerators by converting the majority of arithmetic operations in training to
8-bit fixed-point. In this paper, we perform a full-scale exploration of the
HBFP design space including minimal mantissa encoding, varying block sizes, and
mixed mantissa bit-width across layers and epochs. We propose Accuracy
Boosters, an epoch-driven mixed-mantissa HBFP that uses 6-bit mantissa only in
the last epoch and converts $99.7\%$ of all arithmetic operations in training
to 4-bit mantissas. Accuracy Boosters enable reducing silicon provisioning for
an HBFP training accelerator by $16.98\times$ as compared to FP32, while
preserving or outperforming FP32 accuracy.
- Abstract(参考訳): DNNモデルの複雑さ、サイズ、トレーニングデータの量に対する前例のない成長は、コンピューティングの需要の増大と最小限のエンコーディングの探索につながった。
近年,HBFP(Hybrid Block Floating-Point)は,演算処理の大部分を8ビット固定点に変換することで,加速器のシリコン供給を最小化する技術として提唱されている。
本稿では,HBFP設計空間を大規模に探索し,最小マンティサ符号化,ブロックサイズの変化,層間およびエポック間の混合マンティサビット幅について検討する。
我々は,6ビットのマンティッサのみを使用するエポック駆動混合マンティッサHBFPであるAccuracy Boostersを提案し,トレーニング中の算術演算の99.7\%を4ビットのマンティッサに変換する。
高精度ブースターは、FP32と比較してHBFPトレーニングアクセラレータのシリコン供給を16.98\times$で削減し、FP32の精度を保留または上回る。
関連論文リスト
- BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。
BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文 参考訳(メタデータ) (2024-11-15T16:46:04Z) - Hadamard Domain Training with Integers for Class Incremental Quantized
Learning [1.4416751609100908]
継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。
本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。
行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
論文 参考訳(メタデータ) (2023-10-05T16:52:59Z) - Training Transformers with 4-bit Integers [21.861232105539933]
4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。
既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。
本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T02:45:01Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Quantized Training of Gradient Boosting Decision Trees [84.97123593657584]
我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
論文 参考訳(メタデータ) (2022-07-20T06:27:06Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文 参考訳(メタデータ) (2020-02-08T04:58:33Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。