論文の概要: FP8 Formats for Deep Learning
- arxiv url: http://arxiv.org/abs/2209.05433v1
- Date: Mon, 12 Sep 2022 17:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:44:50.556624
- Title: FP8 Formats for Deep Learning
- Title(参考訳): ディープラーニングのためのFP8フォーマット
- Authors: Paulius Micikevicius, Dusan Stosic, Neil Burgess, Marius Cornea,
Pradeep Dubey, Richard Grisenthwaite, Sangwon Ha, Alexander Heinecke, Patrick
Judd, John Kamalu, Naveen Mellempudi, Stuart Oberman, Mohammad Shoeybi,
Michael Siu, Hao Wu
- Abstract要約: 2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 49.54015320992368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: FP8 is a natural progression for accelerating deep learning training
inference beyond the 16-bit formats common in modern processors. In this paper
we propose an 8-bit floating point (FP8) binary interchange format consisting
of two encodings - E4M3 (4-bit exponent and 3-bit mantissa) and E5M2 (5-bit
exponent and 2-bit mantissa). While E5M2 follows IEEE 754 conventions for
representatio of special values, E4M3's dynamic range is extended by not
representing infinities and having only one mantissa bit-pattern for NaNs. We
demonstrate the efficacy of the FP8 format on a variety of image and language
tasks, effectively matching the result quality achieved by 16-bit training
sessions. Our study covers the main modern neural network architectures - CNNs,
RNNs, and Transformer-based models, leaving all the hyperparameters unchanged
from the 16-bit baseline training sessions. Our training experiments include
large, up to 175B parameter, language models. We also examine FP8
post-training-quantization of language models trained using 16-bit formats that
resisted fixed point int8 quantization.
- Abstract(参考訳): FP8は、現代のプロセッサで一般的な16ビットフォーマットを超えて、ディープラーニングトレーニング推論を加速するための自然な進歩である。
本稿では,e4m3 (4-bit exponentと3-bit mantissa)とe5m2 (5-bit exponentと2-bit mantissa)の2つのエンコーディングからなる8-bit floating point (fp8) binary interchange formatを提案する。
e5m2 は ieee 754 の特殊値表現規約に従うが、e4m3 のダイナミックレンジは無限大を表現せず、nans のマンティッサビットパターンのみを持つことで拡張される。
16ビットのトレーニングセッションで達成した結果の品質を効果的にマッチングし,FP8フォーマットが様々な画像や言語タスクに対して有効であることを示す。
我々の研究は、CNN、RNN、Transformerベースのモデルといった、現代の主要なニューラルネットワークアーキテクチャをカバーしています。
トレーニング実験には、最大175bのパラメータ、言語モデルが含まれています。
また,不動点 int8 量子化に抵抗する 16 ビット形式を用いて学習した言語モデルの fp8 後量子化についても検討した。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Efficient Post-training Quantization with FP8 Formats [14.543387418837154]
本稿では,75のユニークなネットワークアーキテクチャにおけるFP8データフォーマットの学習後量子化の利点について検討する。
E4M3はNLPモデルに向いているが、E3M4はコンピュータビジョンタスクではE4M3よりはるかに優れている。
論文 参考訳(メタデータ) (2023-09-26T00:58:36Z) - FP8 versus INT8 for efficient deep learning inference [14.98281493168929]
デバイス上での効率的な推論のために,FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較した。
FP フォーマットは INT フォーマットよりも,専用ハードウェアの計算効率が 50-180% 程度低いことを示す。
提案したFP8フォーマットはトレーニングに適しているが,推測の結果はFP8の専用実装を保証していない。
論文 参考訳(メタデータ) (2023-03-31T10:29:17Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - FP8 Quantization: The Power of the Exponent [19.179749424362686]
本稿では,ニューラルネットワーク推論における浮動小数点方式の利点について検討する。
我々はFP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含む。
これらの結果が実際のネットワークにどのように変換され、FP8シミュレーションの効率的な実装と新しいアルゴリズムが提供されるかを示す。
論文 参考訳(メタデータ) (2022-08-19T09:03:00Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Representation range needs for 16-bit neural network training [2.2657486535885094]
浮動小数点演算では指数ビット数の変化に伴い精度と表現範囲のトレードオフが存在する。
我々は6ビットの指数と9ビットの明示的なマンティッサという1/6/9フォーマットを提案する。
1/6/9混合精度トレーニングは,非正規動作の性能低下を引き起こすハードウェア上でのトレーニングを高速化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T20:30:02Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。