論文の概要: Rethinking Floating Point Overheads for Mixed Precision DNN Accelerators
- arxiv url: http://arxiv.org/abs/2101.11748v1
- Date: Wed, 27 Jan 2021 23:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:38:59.715412
- Title: Rethinking Floating Point Overheads for Mixed Precision DNN Accelerators
- Title(参考訳): 混合精密DNN加速器の浮動小数点オーバーヘッド再考
- Authors: Hamzah Abdel-Aziz, Ali Shafiee, Jong Hoon Shin, Ardavan Pedram and
Joseph H. Hassoun
- Abstract要約: 異なる整数および浮動小数点(FP)精度をサポートする混合精度畳み込みユニットアーキテクチャを提案する。
FP計算を整数ベースのアーキテクチャに統合し、FP演算サポートによるオーバーヘッドを評価する方法を紹介します。
- 参考スコア(独自算出の注目度): 2.6487352458568507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a mixed-precision convolution unit architecture
which supports different integer and floating point (FP) precisions. The
proposed architecture is based on low-bit inner product units and realizes
higher precision based on temporal decomposition. We illustrate how to
integrate FP computations on integer-based architecture and evaluate overheads
incurred by FP arithmetic support. We argue that alignment and addition
overhead for FP inner product can be significant since the maximum exponent
difference could be up to 58 bits, which results into a large alignment logic.
To address this issue, we illustrate empirically that no more than
26-bitproduct bits are required and up to 8-bit of alignment is sufficient in
most inference cases. We present novel optimizations based on the above
observations to reduce the FP arithmetic hardware overheads. Our empirical
results, based on simulation and hardware implementation, show significant
reduction in FP16 overhead. Over typical mixed precision implementation, the
proposed architecture achieves area improvements of up to 25% in TFLOPS/mm2and
up to 46% in TOPS/mm2with power efficiency improvements of up to 40% in
TFLOPS/Wand up to 63% in TOPS/W.
- Abstract(参考訳): 本稿では,異なる整数と浮動小数点(FP)の精度をサポートする混合精度畳み込みユニットアーキテクチャを提案する。
提案アーキテクチャは低ビット内積単位に基づいており,時間分解に基づく高精度を実現する。
本稿では,整数型アーキテクチャ上でFP計算を統合する方法と,FP演算支援によるオーバーヘッド評価について述べる。
FP内部積のアライメントと加算のオーバーヘッドは、最大出力差が最大58ビットになる可能性があるため、大きなアライメント論理をもたらす可能性があると我々は主張する。
この問題に対処するために、26ビットの積ビットは必要とせず、8ビットまでのアライメントがほとんどの推論ケースで十分であることを示す。
FP計算ハードウェアのオーバーヘッドを低減するために、上記の観測に基づく新しい最適化を提案します。
シミュレーションおよびハードウェア実装に基づく実験結果から,FP16オーバーヘッドの大幅な低減が得られた。
従来の混合精度実装では,TFLOPS/mm2では25%,TOPS/mm2では最大46%,TFLOPS/Wでは最大40%,TOPS/Wでは最大63%の電力効率向上を実現した。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - Dynamic Feature Pyramid Networks for Object Detection [40.24111664691307]
本稿では,各層に異なるカーネルサイズを持つ畳み込みフィルタを組み込んで,受容場を拡大するFPNを提案する。
計算コストの異なる複数の分岐からなる新しい動的FPN(DyFPN)を提案する。
ベンチマーク実験により,提案したDyFPNは計算資源の最適割り当てにより性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-01T19:03:55Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - SIMDive: Approximate SIMD Soft Multiplier-Divider for FPGAs with Tunable
Accuracy [3.4154033825543055]
本稿では,新しい乗算器とチューナブルな分割器に基づくSIMDアーキテクチャを初めて提示する。
提案したハイブリッドアーキテクチャはMitchellのアルゴリズムを実装し、8ビットから32ビットの精度変数をサポートする。
論文 参考訳(メタデータ) (2020-11-02T17:40:44Z) - HOBFLOPS CNNs: Hardware Optimized Bitslice-Parallel Floating-Point
Operations for Convolutional Neural Networks [0.2148535041822524]
畳み込みニューラルネットワーク(CNN)は通常16ビットまたは32ビット浮動小数点(FP)を用いて訓練される
低精度浮動小数点 (FP) は推論に非常に有効である。
既存のプロセッサは、通常カスタム精度FPをサポートしない。
ハードウェア最適化ビットスライス並列浮動小数点演算子(HOBFLOPS)を提案する。
論文 参考訳(メタデータ) (2020-07-11T00:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。