論文の概要: FP8 Quantization: The Power of the Exponent
- arxiv url: http://arxiv.org/abs/2208.09225v2
- Date: Fri, 23 Feb 2024 13:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:56:50.910000
- Title: FP8 Quantization: The Power of the Exponent
- Title(参考訳): FP8量子化:指数のパワー
- Authors: Andrey Kuzmin, Mart Van Baalen, Yuwei Ren, Markus Nagel, Jorn Peters,
Tijmen Blankevoort
- Abstract要約: 本稿では,ニューラルネットワーク推論における浮動小数点方式の利点について検討する。
我々はFP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含む。
これらの結果が実際のネットワークにどのように変換され、FP8シミュレーションの効率的な実装と新しいアルゴリズムが提供されるかを示す。
- 参考スコア(独自算出の注目度): 19.179749424362686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When quantizing neural networks for efficient inference, low-bit integers are
the go-to format for efficiency. However, low-bit floating point numbers have
an extra degree of freedom, assigning some bits to work on an exponential scale
instead. This paper in-depth investigates this benefit of the floating point
format for neural network inference. We detail the choices that can be made for
the FP8 format, including the important choice of the number of bits for the
mantissa and exponent, and show analytically in which settings these choices
give better performance. Then we show how these findings translate to real
networks, provide an efficient implementation for FP8 simulation, and a new
algorithm that enables the learning of both the scale parameters and the number
of exponent bits in the FP8 format. Our chief conclusion is that when doing
post-training quantization for a wide range of networks, the FP8 format is
better than INT8 in terms of accuracy, and the choice of the number of exponent
bits is driven by the severity of outliers in the network. We also conduct
experiments with quantization-aware training where the difference in formats
disappears as the network is trained to reduce the effect of outliers.
- Abstract(参考訳): 効率的な推論のためにニューラルネットワークを量子化する場合、低ビット整数は効率のためのゴーツーフォーマットである。
しかし、低ビット浮動小数点数は余分な自由度を持ち、代わりに指数関数的なスケールで動くビットを割り当てる。
本稿では,ニューラルネットワーク推論における浮動小数点フォーマットの利点について詳細に検討する。
FP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含め、これらの選択がより優れたパフォーマンスをもたらすか分析的に示す。
次に、これらの結果が実際のネットワークにどのように変換されるかを示し、FP8シミュレーションの効率的な実装と、FP8フォーマットのスケールパラメータと指数ビット数の両方の学習を可能にする新しいアルゴリズムを提案する。
主な結論は、広範囲のネットワークに対してトレーニング後の量子化を行う場合、FP8フォーマットは精度においてINT8よりも優れており、指数ビット数の選択はネットワーク内の外れ値の重大さによって引き起こされるということである。
また、ネットワークが異常値の影響を低減させるように訓練されると、フォーマットの違いが消えてしまう量子化アウェアトレーニングの実験も行います。
関連論文リスト
- FP8 versus INT8 for efficient deep learning inference [14.98281493168929]
デバイス上での効率的な推論のために,FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較した。
FP フォーマットは INT フォーマットよりも,専用ハードウェアの計算効率が 50-180% 程度低いことを示す。
提案したFP8フォーマットはトレーニングに適しているが,推測の結果はFP8の専用実装を保証していない。
論文 参考訳(メタデータ) (2023-03-31T10:29:17Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - 8-bit Numerical Formats for Deep Neural Networks [1.304892050913381]
本研究では,8ビット浮動小数点数形式を用いて,トレーニングと推論の両方にアクティベーション,重み,勾配を求める。
実験により、これらの低精度フォーマットの適切な選択は、画像分類と言語処理のための様々なディープラーニングモデルに対して、精度を劣化させることなく、高速なトレーニングと消費電力削減を可能にすることが示された。
論文 参考訳(メタデータ) (2022-06-06T21:31:32Z) - F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization [47.403304754934155]
固定点8ビット乗算のみからなる新しい量子化フレームワークF8Netを提案する。
提案手法は,既存の量子化手法と比較して,同等かつ優れた性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T18:48:56Z) - PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit [5.534626267734822]
本研究は、ポジットを用いた深層畳み込みニューラルネットワークの訓練の可能性を評価することを目的とする。
エンドツーエンドのトレーニングと推論にシミュレートされたポジットとクィアを使用するソフトウェアフレームワークが開発された。
その結果、8ビットポジットはトレーニング中に32ビットフロートを置換でき、その結果の損失や精度に悪影響を及ぼさないことが示唆された。
論文 参考訳(メタデータ) (2021-04-30T19:30:37Z) - All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and
Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。
複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。
古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文 参考訳(メタデータ) (2021-04-15T09:37:23Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。