論文の概要: FP8 versus INT8 for efficient deep learning inference
- arxiv url: http://arxiv.org/abs/2303.17951v1
- Date: Fri, 31 Mar 2023 10:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 14:22:46.452363
- Title: FP8 versus INT8 for efficient deep learning inference
- Title(参考訳): 効率的なディープラーニング推論のためのFP8対INT8
- Authors: Mart van Baalen, Andrey Kuzmin, Suparna S Nair, Yuwei Ren, Eric
Mahurin, Chirag Patel, Sundar Subramanian, Sanghyuk Lee, Markus Nagel, Joseph
Soriaga, Tijmen Blankevoort
- Abstract要約: デバイス上での効率的な推論のために,FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較した。
FP フォーマットは INT フォーマットよりも,専用ハードウェアの計算効率が 50-180% 程度低いことを示す。
提案したFP8フォーマットはトレーニングに適しているが,推測の結果はFP8の専用実装を保証していない。
- 参考スコア(独自算出の注目度): 14.98281493168929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the idea of using FP8 as a number format for neural network
training has been floating around the deep learning world. Given that most
training is currently conducted with entire networks in FP32, or sometimes FP16
with mixed-precision, the step to having some parts of a network run in FP8
with 8-bit weights is an appealing potential speed-up for the generally costly
and time-intensive training procedures in deep learning. A natural question
arises regarding what this development means for efficient inference on edge
devices. In the efficient inference device world, workloads are frequently
executed in INT8. Sometimes going even as low as INT4 when efficiency calls for
it. In this whitepaper, we compare the performance for both the FP8 and INT
formats for efficient on-device inference. We theoretically show the difference
between the INT and FP formats for neural networks and present a plethora of
post-training quantization and quantization-aware-training results to show how
this theory translates to practice. We also provide a hardware analysis showing
that the FP formats are somewhere between 50-180% less efficient in terms of
compute in dedicated hardware than the INT format. Based on our research and a
read of the research field, we conclude that although the proposed FP8 format
could be good for training, the results for inference do not warrant a
dedicated implementation of FP8 in favor of INT8 for efficient inference. We
show that our results are mostly consistent with previous findings but that
important comparisons between the formats have thus far been lacking. Finally,
we discuss what happens when FP8-trained networks are converted to INT8 and
conclude with a brief discussion on the most efficient way for on-device
deployment and an extensive suite of INT8 results for many models.
- Abstract(参考訳): 近年、ニューラルネットワークトレーニングの数値形式としてFP8を使用するというアイデアが、ディープラーニングの世界に浮かび上がっている。
現在、ほとんどのトレーニングがFP32のネットワーク全体、あるいは混合精度のFP16で行われていることを考えると、FP8のネットワークの一部に8ビットの重みを持つようにするステップは、ディープラーニングにおける一般的にコストがかかる時間を要するトレーニング手順にとって魅力的なスピードアップである。
この開発がエッジデバイス上での効率的な推論にどのような意味を持つのかという自然問題が発生する。
効率的な推論デバイスの世界では、ワークロードはINT8で頻繁に実行される。
効率が要求されるとき、INT4と同じくらい低い場合もあります。
このホワイトペーパーでは、FP8フォーマットとINTフォーマットの両方のパフォーマンスを比較し、デバイス上の効率的な推論を行う。
理論的には、ニューラルネットワークのINT形式とFP形式の違いを示し、ポストトレーニング量子化と量子化対応学習の結果の多元性を提示し、この理論が実践にどのように変換されるかを示す。
また、FPフォーマットはINTフォーマットよりも専用ハードウェアの計算効率が50~180%低いことを示すハードウェア分析も提供する。
提案したFP8フォーマットは,本研究と研究分野の可読性に基づき,FP8フォーマットがトレーニングに有効であるとしても,推論結果がFP8の専用実装を保証せず,効率の良い推論を行うことができる。
これまでの結果とほぼ一致した結果が得られたが, これまでのところ, フォーマット間の重要な比較は不十分であった。
最後に、FP8をトレーニングしたネットワークがINT8に変換されたときに何が起こるかについて議論し、デバイス上でのデプロイの最も効率的な方法と、多くのモデルに対するINT8結果の広範なスイートについて、簡単な議論で結論づける。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Towards Federated Learning with On-device Training and Communication in 8-bit Floating Point [13.693064349530795]
近年の研究では、8ビット浮動小数点(FP8)がニューラルネットワークの効率的なトレーニングに利用できることが示されている。
グローバルなFP32サーバモデルを維持しながらFP8クライアントトレーニングを組み合わせる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T18:55:58Z) - FP8-BERT: Post-Training Quantization for Transformer [20.51143486483669]
BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。
新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。
我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
論文 参考訳(メタデータ) (2023-12-10T02:14:34Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - FP8 Quantization: The Power of the Exponent [19.179749424362686]
本稿では,ニューラルネットワーク推論における浮動小数点方式の利点について検討する。
我々はFP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含む。
これらの結果が実際のネットワークにどのように変換され、FP8シミュレーションの効率的な実装と新しいアルゴリズムが提供されるかを示す。
論文 参考訳(メタデータ) (2022-08-19T09:03:00Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。