論文の概要: Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization
- arxiv url: http://arxiv.org/abs/2105.01868v1
- Date: Wed, 5 May 2021 05:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:38:53.851188
- Title: Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization
- Title(参考訳): Q-Rater: 後の均一量子化のための非凸最適化
- Authors: Byeongwook Kim, Dongsoo Lee, Yeonju Ro, Yongkweon Jeon, Se Jung Kwon,
Baeseong Park, Daehwan Oh
- Abstract要約: 様々な訓練後の量子一様化法は通常凸最適化に基づいている。
提案手法は,特に低量子化の場合,高いモデル精度を示す。
- 参考スコア(独自算出の注目度): 9.062897838978955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various post-training uniform quantization methods have usually been studied
based on convex optimization. As a result, most previous ones rely on the
quantization error minimization and/or quadratic approximations. Such
approaches are computationally efficient and reasonable when a large number of
quantization bits are employed. When the number of quantization bits is
relatively low, however, non-convex optimization is unavoidable to improve
model accuracy. In this paper, we propose a new post-training uniform
quantization technique considering non-convexity. We empirically show that
hyper-parameters for clipping and rounding of weights and activations can be
explored by monitoring task loss. Then, an optimally searched set of
hyper-parameters is frozen to proceed to the next layer such that an
incremental non-convex optimization is enabled for post-training quantization.
Throughout extensive experimental results using various models, our proposed
technique presents higher model accuracy, especially for a low-bit
quantization.
- Abstract(参考訳): 様々な訓練後の均一量子化法は、通常凸最適化に基づいて研究されている。
その結果、従来は量子化誤差の最小化や二次近似に頼っていた。
このようなアプローチは、多くの量子化ビットが使われる場合、計算効率が良く合理的である。
しかし、量子化ビット数が比較的低い場合、非凸最適化はモデル精度を向上させるために避けられない。
本稿では,非凸性を考慮した新しいトレーニング後一様量子化手法を提案する。
重みとアクティベーションの切断と丸めのためのハイパーパラメータをタスク損失の監視によって探索できることを実証的に示す。
そして、最適に探索されたハイパーパラメータのセットを凍結して次の層へ進み、トレーニング後の量子化にインクリメンタルな非凸最適化を有効にする。
様々なモデルを用いた広範囲な実験結果を通して,提案手法は,特に低ビット量子化において,高い精度を示す。
関連論文リスト
- QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。
本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。
QSPECは、品質上の妥協なしにトークン生成スループットを最大1.80倍向上させる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Towards Accurate Post-training Quantization for Diffusion Models [73.19871905102545]
本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータフリーポストトレーニング量子化フレームワークを提案する。
提案手法は, 拡散モデルの学習後の量子化を, 同様の計算コストで, 非常に大きなマージンで高速化する。
論文 参考訳(メタデータ) (2023-05-30T04:00:35Z) - Ternary Quantization: A Survey [12.90416661059601]
深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。
3次量子化の進化を概観し、既存の3次量子化法との関係について検討する。
論文 参考訳(メタデータ) (2023-03-02T03:38:51Z) - Sharp Calibrated Gaussian Processes [58.94710279601622]
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに依存している。
本稿では,バニラガウス過程の後方分散にインスパイアされた計算を用いて,予測量子化を生成するキャリブレーション手法を提案する。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:17:36Z) - Towards Mixed-Precision Quantization of Neural Networks via Constrained
Optimization [28.76708310896311]
本稿では,混合精度量子化問題を解くための原理的枠組みを提案する。
提案手法は原理的手法で導出され,より計算効率がよいことを示す。
論文 参考訳(メタデータ) (2021-10-13T08:09:26Z) - Variational Quantum Optimization with Multi-Basis Encodings [62.72309460291971]
マルチバスグラフ複雑性と非線形活性化関数の2つの革新の恩恵を受ける新しい変分量子アルゴリズムを導入する。
その結果,最適化性能が向上し,有効景観が2つ向上し,測定の進歩が減少した。
論文 参考訳(メタデータ) (2021-06-24T20:16:02Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。