論文の概要: A2Q+: Improving Accumulator-Aware Weight Quantization
- arxiv url: http://arxiv.org/abs/2401.10432v1
- Date: Fri, 19 Jan 2024 00:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 17:21:57.737070
- Title: A2Q+: Improving Accumulator-Aware Weight Quantization
- Title(参考訳): A2Q+: 蓄積器対応重み量子化の改善
- Authors: Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig, Yaman
Umuroglu
- Abstract要約: 量子化技術は一般的に、重みとアクティベーションの精度を制限することにより、ニューラルネットワークの推論コストを削減している。
最近の研究は、トレーニング中にモデルの重みを制約し、推論中にターゲットのアキュムレータビット幅を安全に使用するための量子化対応トレーニング手法である、アキュムレータ対応量子化(A2Q)を提案する。
我々は、事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略であるA2Q+を紹介する。
- 参考スコア(独自算出の注目度): 45.14832807541816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization techniques commonly reduce the inference costs of neural
networks by restricting the precision of weights and activations. Recent
studies show that also reducing the precision of the accumulator can further
improve hardware efficiency at the risk of numerical overflow, which introduces
arithmetic errors that can degrade model accuracy. To avoid numerical overflow
while maintaining accuracy, recent work proposed accumulator-aware quantization
(A2Q), a quantization-aware training method that constrains model weights
during training to safely use a target accumulator bit width during inference.
Although this shows promise, we demonstrate that A2Q relies on an overly
restrictive constraint and a sub-optimal weight initialization strategy that
each introduce superfluous quantization error. To address these shortcomings,
we introduce: (1) an improved bound that alleviates accumulator constraints
without compromising overflow avoidance; and (2) a new strategy for
initializing quantized weights from pre-trained floating-point checkpoints. We
combine these contributions with weight normalization to introduce A2Q+. We
support our analysis with experiments that show A2Q+ significantly improves the
trade-off between accumulator bit width and model accuracy and characterize new
trade-offs that arise as a consequence of accumulator constraints.
- Abstract(参考訳): 量子化技術は、重みとアクティベーションの精度を制限し、ニューラルネットワークの推論コストを低減する。
近年の研究では、アキュムレータの精度を低下させることで、数値オーバーフローのリスクでハードウェア効率がさらに向上し、モデル精度を低下させる算術誤差が生じることが示されている。
精度を維持しつつ数値オーバーフローを回避するために、最近の研究は、トレーニング中にモデル重みを制約し、推論中にターゲットアキュムレータビット幅を安全に使用する量子化アウェアトレーニング手法であるaccumulator-aware quantization (a2q)を提案した。
これは約束を示すが、a2qは過度に制限的な制約とサブ最適重み初期化戦略に依存しており、それぞれが過剰な量子化誤差をもたらすことを実証する。
これらの欠点に対処するために,(1)オーバーフロー回避を伴わずに累積制約を緩和する改良境界,(2)事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略を提案する。
これらを重み正規化と組み合わせてA2Q+を導入する。
A2Q+はアキュムレータビット幅とモデル精度のトレードオフを著しく改善し、アキュムレータ制約の結果生じる新たなトレードオフを特徴付ける実験で分析を支援した。
関連論文リスト
- Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators [7.728820930581886]
CIMはディープニューラルネットワーク(DNN)の効率的な実装方法である
CIMはアナログ・デジタルコンバータ(ADC)のかなりのオーバーヘッドに悩まされている
細胞制限と複数の細胞の必要性により生じる低ビットの重量制限はさらなる課題を呈している。
この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-11T05:32:14Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文 参考訳(メタデータ) (2023-08-25T17:28:58Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。