論文の概要: NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search
- arxiv url: http://arxiv.org/abs/2308.05600v1
- Date: Thu, 10 Aug 2023 14:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:08:10.958261
- Title: NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search
- Title(参考訳): NUPES : 電力指数探索による非均一ポストトレーニング量子化
- Authors: Edouard Yvinec, Arnaud Dapogny and Kevin Bailly
- Abstract要約: 量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
- 参考スコア(独自算出の注目度): 7.971065005161565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural network (DNN) deployment has been confined to larger hardware
devices due to their expensive computational requirements. This challenge has
recently reached another scale with the emergence of large language models
(LLMs). In order to reduce both their memory footprint and latency, a promising
technique is quantization. It consists in converting floating point
representations to low bit-width fixed point representations, usually by
assuming a uniform mapping onto a regular grid. This process, referred to in
the literature as uniform quantization, may however be ill-suited as most DNN
weights and activations follow a bell-shaped distribution. This is even worse
on LLMs whose weight distributions are known to exhibit large, high impact,
outlier values. In this work, we propose an improvement over the most commonly
adopted way to tackle this limitation in deep learning models quantization,
namely, non-uniform quantization. NUPES leverages automorphisms to preserve the
scalar multiplications. Such transformations are derived from power functions.
However, the optimization of the exponent parameter and weight values remains a
challenging and novel problem which could not be solved with previous post
training optimization techniques which only learn to round up or down weight
values in order to preserve the predictive function. We circumvent this
limitation with a new paradigm: learning new quantized weights over the entire
quantized space. Similarly, we enable the optimization of the power exponent,
i.e. the optimization of the quantization operator itself during training by
alleviating all the numerical instabilities. The resulting predictive function
is compatible with integer-only low-bit inference. We show the ability of the
method to achieve state-of-the-art compression rates in both, data-free and
data-driven configurations.
- Abstract(参考訳): deep neural network (dnn)のデプロイメントは、高価な計算要件のため、より大きなハードウェアデバイスに限定されている。
この課題は最近、大規模言語モデル(LLM)の出現とともに、別のスケールに到達した。
メモリフットプリントとレイテンシの両方を減らすために、有望なテクニックは量子化である。
浮動小数点表現を低ビット幅の固定点表現に変換し、通常、正規グリッドへの一様写像を仮定する。
この過程は、文献では一様量子化と呼ばれ、ほとんどのDNN重みと活性化がベルの形状の分布に従うため不適当である。
これは、重量分布が大きく、高い影響、外れ値を示すことが知られているllmではさらに悪化する。
本研究は,ディープラーニングモデルの量子化,すなわち非一様量子化において,この制限に対処する最も一般的な方法に対する改良を提案する。
NUPESは自己同型を利用してスカラー乗法を保存する。
このような変換はパワー関数に由来する。
しかし, 指数パラメータと重み値の最適化は, 予測関数を保存するために, 重み値を丸めたり縮めたりすることだけを学ぶ前回の訓練後の最適化手法では解決できない, 挑戦的で新しい問題である。
我々はこの制限を新しいパラダイムで回避し、量子化された空間全体に新しい量子化された重みを学習する。
同様に、全ての数値不安定性を緩和することにより、トレーニング中の量子化演算子自体の最適化を可能にする。
その結果生じる予測関数は整数のみの低ビット推論と互換性がある。
本稿では,データフリーおよびデータ駆動構成の両方において,最先端の圧縮率を達成する手法の能力を示す。
関連論文リスト
- IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - Magic for the Age of Quantized DNNs [0.6008132390640294]
ミニバッチサイズに依存しない新しい正規化(Layer-Batch Normalization)を導入し,推論時に追加コストを必要としない。
また、同じ関数を用いて活性化関数を量子化し、代理勾配を適用して、量子化重みと量子化活性化関数の両方でモデルを訓練する。
論文 参考訳(メタデータ) (2024-03-22T07:21:09Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Neural Functional Transformers [99.98750156515437]
本稿では,ニューラルファンクショナルトランスフォーマー (NFT) と呼ばれる新しい変分同変量空間層を定義するために,アテンション機構を用いる。
NFTは重み空間の置換対称性を尊重し、注意の利点を取り入れ、複数の領域で顕著な成功を収めた。
Inr2Arrayは暗黙的ニューラル表現(INR)の重みから置換不変表現を計算する新しい方法である。
論文 参考訳(メタデータ) (2023-05-22T23:38:27Z) - PowerQuant: Automorphism Search for Non-Uniform Quantization [37.82255888371488]
我々は、量子化演算子の均一性を既存のアプローチの制限として同定し、データフリーな非一様法を提案する。
我々は、PowerQuantと呼ばれる我々の手法は、量子化されたDNNアクティベーション関数の単純な修正しか必要としないことを示した。
論文 参考訳(メタデータ) (2023-01-24T08:30:14Z) - Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation [48.838691414561694]
非一様量子化(英: Nonuniform-to-Uniform Quantization、N2UQ)は、ハードウェアフレンドリーで効率的な非一様法の強力な表現能力を維持できる方法である。
N2UQはImageNet上で最先端の非一様量子化法を0.71.8%上回る。
論文 参考訳(メタデータ) (2021-11-29T18:59:55Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。