Fugu-MT 論文翻訳(概要): A2Q+: Improving Accumulator-Aware Weight Quantization

論文の概要: A2Q+: Improving Accumulator-Aware Weight Quantization

arxiv url: http://arxiv.org/abs/2401.10432v1
Date: Fri, 19 Jan 2024 00:27:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 17:21:57.737070
Title: A2Q+: Improving Accumulator-Aware Weight Quantization
Title（参考訳）: A2Q+: 蓄積器対応重み量子化の改善
Authors: Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig, Yaman Umuroglu
Abstract要約: 量子化技術は一般的に、重みとアクティベーションの精度を制限することにより、ニューラルネットワークの推論コストを削減している。最近の研究は、トレーニング中にモデルの重みを制約し、推論中にターゲットのアキュムレータビット幅を安全に使用するための量子化対応トレーニング手法である、アキュムレータ対応量子化(A2Q)を提案する。我々は、事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略であるA2Q+を紹介する。
参考スコア（独自算出の注目度）: 45.14832807541816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantization techniques commonly reduce the inference costs of neural networks by restricting the precision of weights and activations. Recent studies show that also reducing the precision of the accumulator can further improve hardware efficiency at the risk of numerical overflow, which introduces arithmetic errors that can degrade model accuracy. To avoid numerical overflow while maintaining accuracy, recent work proposed accumulator-aware quantization (A2Q), a quantization-aware training method that constrains model weights during training to safely use a target accumulator bit width during inference. Although this shows promise, we demonstrate that A2Q relies on an overly restrictive constraint and a sub-optimal weight initialization strategy that each introduce superfluous quantization error. To address these shortcomings, we introduce: (1) an improved bound that alleviates accumulator constraints without compromising overflow avoidance; and (2) a new strategy for initializing quantized weights from pre-trained floating-point checkpoints. We combine these contributions with weight normalization to introduce A2Q+. We support our analysis with experiments that show A2Q+ significantly improves the trade-off between accumulator bit width and model accuracy and characterize new trade-offs that arise as a consequence of accumulator constraints.
Abstract（参考訳）: 量子化技術は、重みとアクティベーションの精度を制限し、ニューラルネットワークの推論コストを低減する。近年の研究では、アキュムレータの精度を低下させることで、数値オーバーフローのリスクでハードウェア効率がさらに向上し、モデル精度を低下させる算術誤差が生じることが示されている。精度を維持しつつ数値オーバーフローを回避するために、最近の研究は、トレーニング中にモデル重みを制約し、推論中にターゲットアキュムレータビット幅を安全に使用する量子化アウェアトレーニング手法であるaccumulator-aware quantization (a2q)を提案した。これは約束を示すが、a2qは過度に制限的な制約とサブ最適重み初期化戦略に依存しており、それぞれが過剰な量子化誤差をもたらすことを実証する。これらの欠点に対処するために,(1)オーバーフロー回避を伴わずに累積制約を緩和する改良境界,(2)事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略を提案する。これらを重み正規化と組み合わせてA2Q+を導入する。 A2Q+はアキュムレータビット幅とモデル精度のトレードオフを著しく改善し、アキュムレータ制約の結果生じる新たなトレードオフを特徴付ける実験で分析を支援した。

関連論文リスト

MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-14T19:31:21Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Oscillations Make Neural Networks Robust to Quantization [0.16385815610837165]
量子化アウェアトレーニング(QAT)における振動は,STE(Straight-Through Estimator)によって引き起こされる望ましくない人工物であることを示す。量子化を改善するために振動を誘導する新しい正則化法を提案する。
論文参考訳（メタデータ） (2025-02-01T16:39:58Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文参考訳（メタデータ） (2024-10-08T13:37:34Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文参考訳（メタデータ） (2024-07-09T12:06:03Z)
OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文参考訳（メタデータ） (2024-05-23T20:01:17Z)
Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文参考訳（メタデータ） (2023-12-17T02:31:20Z)
A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。 A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。 A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文参考訳（メタデータ） (2023-08-25T17:28:58Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Direct Quantization for Training Highly Accurate Low Bit-width Deep Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文参考訳（メタデータ） (2020-12-26T15:21:18Z)
DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文参考訳（メタデータ） (2020-12-21T10:19:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。