論文の概要: Efficient Post-training Quantization with FP8 Formats
- arxiv url: http://arxiv.org/abs/2309.14592v1
- Date: Tue, 26 Sep 2023 00:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 15:26:41.241909
- Title: Efficient Post-training Quantization with FP8 Formats
- Title(参考訳): FP8フォーマットによる学習後量子化の効率化
- Authors: Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, and
Mengni Wang
- Abstract要約: 本稿では,75のユニークなネットワークアーキテクチャにおけるFP8データフォーマットの学習後量子化の利点について検討する。
E4M3はNLPモデルに向いているが、E3M4はコンピュータビジョンタスクではE4M3よりはるかに優れている。
- 参考スコア(独自算出の注目度): 14.543387418837154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning methods such as LLMs and Diffusion models
have created a need for improved quantization methods that can meet the
computational demands of these modern architectures while maintaining accuracy.
Towards this goal, we study the advantages of FP8 data formats for
post-training quantization across 75 unique network architectures covering a
wide range of tasks, including machine translation, language modeling, text
generation, image classification, generation, and segmentation. We examine
three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects
of varying degrees of trade-off between dynamic range and precision on model
accuracy. Based on our extensive study, we developed a quantization workflow
that generalizes across different network architectures. Our empirical results
show that FP8 formats outperform INT8 in multiple aspects, including workload
coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader
range of operations. Furthermore, our findings suggest that E4M3 is better
suited for NLP models, whereas E3M4 performs marginally better than E4M3 on
computer vision tasks. The code is publicly available on Intel Neural
Compressor: https://github.com/intel/neural-compressor.
- Abstract(参考訳): llmsや拡散モデルといったディープラーニング手法の最近の進歩は、精度を維持しつつ、これらの現代のアーキテクチャの計算要求を満たす量子化法の改善の必要性を生み出した。
この目的に向けて,機械翻訳,言語モデリング,テキスト生成,画像分類,生成,セグメンテーションなど,幅広いタスクをカバーする75のユニークなネットワークアーキテクチャを対象としたポストトレーニング量子化のためのFP8データフォーマットの利点について検討する。
本研究では,3種類のFP8表現(E5M2,E4M3,E3M4)について,ダイナミックレンジと精度の違いがモデル精度に及ぼす影響について検討した。
広範な研究に基づいて、異なるネットワークアーキテクチャをまたいで一般化する量子化ワークフローを開発した。
実験の結果、FP8フォーマットは、ワークロードカバレッジ(92.64%対65.87%)、モデルの正確性、幅広い操作に適した機能など、複数の面でINT8より優れていることが示された。
さらに,我々は,E4M3がNLPモデルに適していることを示し,E3M4はコンピュータビジョンタスクにおいてE4M3よりも極端に優れていることを示した。
コードはIntel Neural Compressorで公開されている。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Mixture of Experts with Mixture of Precisions for Tuning Quality of Service [0.0]
本稿では,MoEモデルの効率的なデプロイのための適応型サービス方式を提案する。
量子化の専門家の数を動的に決定することにより、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。
その結果、動的かつ精度の高いアプリケーションにおける我々のアプローチの実用性を強調した。
論文 参考訳(メタデータ) (2024-07-19T15:42:49Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - Degree-Quant: Quantization-Aware Training for Graph Neural Networks [10.330195866109312]
グラフニューラルネットワーク(GNN)は、さまざまなタスクにおいて強力なパフォーマンスを示している。
彼らの約束にもかかわらず、推論時により効率的にする方法を探求する研究はほとんどない。
本稿では、既存の量子化対応トレーニングベースラインよりも性能を向上させるために、アーキテクチャに依存しないDegree-Quantを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。