論文の概要: Revisiting BFloat16 Training
- arxiv url: http://arxiv.org/abs/2010.06192v2
- Date: Sun, 7 Mar 2021 06:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 22:53:06.763576
- Title: Revisiting BFloat16 Training
- Title(参考訳): BFloat16トレーニングの見直し
- Authors: Pedram Zamirai, Jian Zhang, Christopher R. Aberger, Christopher De Sa
- Abstract要約: 最先端の汎用的低精度トレーニングアルゴリズムでは、16ビットと32ビットの精度が混在している。
ディープラーニングアクセラレータは、16ビットと32ビットの浮動小数点ユニットの両方をサポートせざるを得ない。
- 参考スコア(独自算出の注目度): 30.99618783594963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art generic low-precision training algorithms use a mix of
16-bit and 32-bit precision, creating the folklore that 16-bit hardware compute
units alone are not enough to maximize model accuracy. As a result, deep
learning accelerators are forced to support both 16-bit and 32-bit
floating-point units (FPUs), which is more costly than only using 16-bit FPUs
for hardware design. We ask: can we train deep learning models only with 16-bit
floating-point units, while still matching the model accuracy attained by
32-bit training? Towards this end, we study 16-bit-FPU training on the widely
adopted BFloat16 unit. While these units conventionally use nearest rounding to
cast output to 16-bit precision, we show that nearest rounding for model weight
updates often cancels small updates, which degrades the convergence and model
accuracy. Motivated by this, we study two simple techniques well-established in
numerical analysis, stochastic rounding and Kahan summation, to remedy the
model accuracy degradation in 16-bit-FPU training. We demonstrate that these
two techniques can enable up to 7% absolute validation accuracy gain in
16-bit-FPU training. This leads to 0.1% lower to 0.2% higher validation
accuracy compared to 32-bit training across seven deep learning applications.
- Abstract(参考訳): 最先端の汎用的低精度トレーニングアルゴリズムは16ビットと32ビットの精度を混合し、16ビットのハードウェア演算ユニットだけではモデルの精度を最大化できないという伝承を生み出した。
その結果、深層学習アクセラレータは16ビット浮動小数点ユニット(FPU)と32ビット浮動小数点ユニット(FPU)の両方をサポートせざるを得なくなった。
私たちは、深層学習モデルを16ビット浮動小数点ユニットでのみトレーニングできますが、32ビットのトレーニングで得られたモデルの精度は相変わらず一致しますか?
そこで我々は,広く採用されているBFloat16ユニットの16ビットFPUトレーニングについて検討した。
これらのユニットは従来16ビットの精度で出力を出力するために最も近い丸めを用いるが、モデルウェイト更新の最も近い丸めは、しばしば小さな更新をキャンセルし、収束とモデルの精度を低下させる。
そこで本研究では,16ビットFPUトレーニングにおけるモデル精度劣化の軽減を目的とした,数値解析,確率的ラウンドリング,カハン和の2つの簡単な手法について検討した。
この2つの手法により、16ビットfpuトレーニングで最大7%の絶対検証精度が得られることを示す。
これにより、7つのディープラーニングアプリケーションにわたる32ビットトレーニングと比較して、0.1%から0.2%の検証精度が向上する。
関連論文リスト
- FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Standalone 16-bit Training: Missing Study for Hardware-Limited Deep Learning Practitioners [2.075190620803526]
混合精度技術は、モデルトレーニングと推論の間に異なる数値精度を活用し、資源利用を最適化する。
リソースが限られている多くの人にとって、利用可能なオプションは32ビット、16ビット、または2つの組み合わせに限られている。
この研究は重要なギャップを埋め、スタンドアロンの16ビット精度のニューラルネットワークが32ビットと混合精度の精度で一致したことを初めて証明した。
論文 参考訳(メタデータ) (2023-05-18T13:09:45Z) - Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。
Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13~25%の高速化を実現した。
安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1~8回発生することを発見した。
論文 参考訳(メタデータ) (2023-04-25T17:38:18Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - BMPQ: Bit-Gradient Sensitivity Driven Mixed-Precision Quantization of
DNNs from Scratch [11.32458063021286]
本稿では、ビット勾配を用いて層感度を分析し、混合精度の量子化モデルを生成する学習手法であるBMPQを提案する。
トレーニングを1回行う必要があるが、トレーニング済みのベースラインは必要ない。
ベースラインのFP-32モデルと比較して、BMPQは15.4倍少ないパラメータビットを持つモデルの精度は無視できる。
論文 参考訳(メタデータ) (2021-12-24T03:16:58Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit [5.534626267734822]
本研究は、ポジットを用いた深層畳み込みニューラルネットワークの訓練の可能性を評価することを目的とする。
エンドツーエンドのトレーニングと推論にシミュレートされたポジットとクィアを使用するソフトウェアフレームワークが開発された。
その結果、8ビットポジットはトレーニング中に32ビットフロートを置換でき、その結果の損失や精度に悪影響を及ぼさないことが示唆された。
論文 参考訳(メタデータ) (2021-04-30T19:30:37Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。