論文の概要: A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance
- arxiv url: http://arxiv.org/abs/2308.13504v1
- Date: Fri, 25 Aug 2023 17:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 13:01:43.981495
- Title: A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance
- Title(参考訳): A2Q: オーバーフロー回避による累積量子化
- Authors: Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig
- Abstract要約: accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present accumulator-aware quantization (A2Q), a novel weight quantization
method designed to train quantized neural networks (QNNs) to avoid overflow
when using low-precision accumulators during inference. A2Q introduces a unique
formulation inspired by weight normalization that constrains the L1-norm of
model weights according to accumulator bit width bounds that we derive. Thus,
in training QNNs for low-precision accumulation, A2Q also inherently promotes
unstructured weight sparsity to guarantee overflow avoidance. We apply our
method to deep learning-based computer vision tasks to show that A2Q can train
QNNs for low-precision accumulators while maintaining model accuracy
competitive with a floating-point baseline. In our evaluations, we consider the
impact of A2Q on both general-purpose platforms and programmable hardware.
However, we primarily target model deployment on FPGAs because they can be
programmed to fully exploit custom accumulator bit widths. Our experimentation
shows accumulator bit width significantly impacts the resource efficiency of
FPGA-based accelerators. On average across our benchmarks, A2Q offers up to a
2.3x reduction in resource utilization over 32-bit accumulator counterparts
with 99.2% of the floating-point model accuracy.
- Abstract(参考訳): 本稿では,量子化ニューラルネットワーク (qnns) を学習するための新しい重み量子化法であるaccumulator-aware quantization (a2q)を提案する。
a2qは、モデル重みのl1ノルムを我々が導出する累積ビット幅境界に従って制約する重み正規化に触発された一意な定式化を導入する。
このように、低精度蓄積のためのQNNのトレーニングにおいて、A2Qは本質的に、オーバーフロー回避を保証するために非構造的な重量空間も促進する。
本手法を深層学習に基づくコンピュータビジョンタスクに適用し,浮動小数点ベースラインと競合するモデル精度を維持しつつ,a2qが低精度アキュムレータに対してqnnを訓練できることを示す。
本評価では,A2Qが汎用プラットフォームとプログラマブルハードウェアの両方に与える影響を考察する。
しかし、カスタムアキュムレータのビット幅を十分に活用するようにプログラムできるため、fpga上のモデル配置を主にターゲットとしています。
実験の結果,accumulatorのビット幅はfpgaベースのアクセラレータのリソース効率に大きく影響することがわかった。
ベンチマークの平均では、a2qは32ビットアキュムレータのリソース使用率を最大2.3倍削減し、浮動小数点モデルの99.2%の精度を実現しています。
関連論文リスト
- Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs [30.325651150798915]
量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。
QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
論文 参考訳(メタデータ) (2024-01-31T02:18:27Z) - A2Q+: Improving Accumulator-Aware Weight Quantization [45.14832807541816]
量子化技術は一般的に、重みとアクティベーションの精度を制限することにより、ニューラルネットワークの推論コストを削減している。
最近の研究は、トレーニング中にモデルの重みを制約し、推論中にターゲットのアキュムレータビット幅を安全に使用するための量子化対応トレーニング手法である、アキュムレータ対応量子化(A2Q)を提案する。
我々は、事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略であるA2Q+を紹介する。
論文 参考訳(メタデータ) (2024-01-19T00:27:34Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Quantization of Deep Neural Networks for Accumulator-constrained
Processors [2.8489574654566674]
本稿では,大規模な蓄積レジスタを持たないプラットフォームに対して,ニューラルネットワーク(ANN)量子化手法を提案する。
量子化問題をアキュムレータサイズの関数として定式化し、入力データと重みのビット幅を最大化することでモデルの精度を最大化する。
我々は,CIFAR-10およびILSVRC2012画像分類ベンチマークにおいて,浮動小数点ベースラインの1%以内の分類精度が得られることを示した。
論文 参考訳(メタデータ) (2020-04-24T14:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。