Fugu-MT 論文翻訳(概要): Post-Training Quantization with Low-precision Minifloats and Integers on FPGAs

論文の概要: Post-Training Quantization with Low-precision Minifloats and Integers on FPGAs

arxiv url: http://arxiv.org/abs/2311.12359v1
Date: Tue, 21 Nov 2023 05:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 01:54:10.166523
Title: Post-Training Quantization with Low-precision Minifloats and Integers on FPGAs
Title（参考訳）: FPGA上の低精度ミニフロートと整数を用いた後学習量子化
Authors: Shivam Aggarwal, Alessandro Pappalardo, Hans Jakob Damsgaard, Giuseppe Franco, Thomas B. Preu{\ss}er, Michaela Blott, Tulika Mitra
Abstract要約: ポストトレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの精度を低下させる。近年,8ビット浮動小数点量子化(FP8)をPTQの文脈でモデル推論に適用する研究が進められている。本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
参考スコア（独自算出の注目度）: 41.10746835088149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-Training Quantization (PTQ) is a powerful technique for model compression, reducing the precision of neural networks without additional training overhead. Recent works have investigated adopting 8-bit floating-point quantization (FP8) in the context of PTQ for model inference. However, the exploration of floating-point formats smaller than 8 bits and their comparison with integer quantization remains relatively limited. In this work, we present minifloats, which are reduced-precision floating-point formats capable of further reducing the memory footprint, latency, and energy cost of a model while approaching full-precision model accuracy. Our work presents a novel PTQ design-space exploration, comparing minifloat and integer quantization schemes across a range of 3 to 8 bits for both weights and activations. We examine the applicability of various PTQ techniques to minifloats, including weight equalization, bias correction, SmoothQuant, gradient-based learned rounding, and the GPTQ method. Our experiments validate the effectiveness of low-precision minifloats when compared to their integer counterparts across a spectrum of accuracy-precision trade-offs on a set of reference deep learning vision workloads. Finally, we evaluate our results against an FPGA-based hardware cost model, showing that integer quantization often remains the Pareto-optimal option, given its relatively smaller hardware resource footprint.
Abstract（参考訳）: ポストトレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの精度を低下させる。近年,8ビット浮動小数点量子化(FP8)をPTQの文脈でモデル推論に適用する研究が行われている。しかし、8ビット未満の浮動小数点形式の探索と整数量子化との比較は依然として比較的限られている。本研究では,全精度に接近しながらモデルのメモリフットプリント,レイテンシ,エネルギコストをさらに削減可能な,低精度浮動小数点フォーマットであるminifloatを提案する。本研究は,3ビットから8ビットの範囲のミニフロートおよび整数量子化スキームを重みとアクティベーションの両方で比較し,新しいPTQ設計空間探索を提案する。重量等化, バイアス補正, SmoothQuant, 勾配に基づく学習ラウンドリング, GPTQ法など, 各種PTQ手法の小型フロートへの適用性を検討した。本実験は、一連の参照ディープラーニングビジョンワークロードにおける精度-精度トレードオフのスペクトルをまたいで、低精度のミニフローの有効性を検証する。最後に、FPGAベースのハードウェアコストモデルと比較し、ハードウェアリソースのフットプリントが比較的小さいため、整数量子化がパレート最適オプションのままであることを示す。

関連論文リスト

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。 FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文参考訳（メタデータ） (2025-10-29T15:11:53Z)
MGS: Markov Greedy Sums for Accurate Low-Bitwidth Floating-Point Accumulation [3.638431342539701]
MGS(Markov Greedy Sums)は、ニューラルネットワーク計算において、低ビット幅浮動小数点生成物の精度を改善するための新しいアプローチである。我々は,複数のニューラルネットワークの推測時間において8ビット浮動小数点誤差を最小限に抑えるアルゴリズムを設計,解析,実装する。
論文参考訳（メタデータ） (2025-04-12T04:19:03Z)
Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language Models [17.055400141733124]
低ビット整数形式(例えばINT8/INT4)は、大規模言語モデル(LLM)の従来の選択肢である。低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段であり、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。本稿では,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
論文参考訳（メタデータ） (2023-05-21T05:28:37Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文参考訳（メタデータ） (2022-12-19T18:48:33Z)
FP8 Quantization: The Power of the Exponent [19.179749424362686]
本稿では,ニューラルネットワーク推論における浮動小数点方式の利点について検討する。我々はFP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含む。これらの結果が実際のネットワークにどのように変換され、FP8シミュレーションの効率的な実装と新しいアルゴリズムが提供されるかを示す。
論文参考訳（メタデータ） (2022-08-19T09:03:00Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文参考訳（メタデータ） (2021-04-15T09:37:23Z)
EFloat: Entropy-coded Floating Point Format for Deep Learning [2.3204178451683264]
EFloatフォーマットは、平均指数フィールド幅を最小限に抑えるために、Huffman符号で頻繁な指数値を符号化する。提案した符号化概念は、8ビットフロートを含む低精度フォーマットに有用かもしれない。
論文参考訳（メタデータ） (2021-02-04T15:58:01Z)
I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。 I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文参考訳（メタデータ） (2021-01-05T02:42:58Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)
Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文参考訳（メタデータ） (2020-11-04T15:41:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。