論文の概要: MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2406.00800v1
- Date: Sun, 2 Jun 2024 17:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:26:39.098367
- Title: MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization
- Title(参考訳): MagR:ポストトレーニング量子化の強化のための軽量マグニチュード削減
- Authors: Aozhong Zhang, Naigang Wang, Yanxia Deng, Xin Li, Zi Yang, Penghang Yin,
- Abstract要約: トレーニング後の量子化性能を向上させるため,重み付きマグニチュード(MagR)を提案する。
各線形層に対して, $ell_infty$-regularized optimization 問題を解くことにより,事前学習した浮動小数点重みを調整する。
MagRは、Llamaファミリーのモデル上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 6.15064968496484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a simple optimization-based preprocessing technique called Weight Magnitude Reduction (MagR) to improve the performance of post-training quantization. For each linear layer, we adjust the pre-trained floating-point weights by solving an $\ell_\infty$-regularized optimization problem. This process greatly diminishes the maximum magnitude of the weights and smooths out outliers, while preserving the layer's output. The preprocessed weights are centered more towards zero, which facilitates the subsequent quantization process. To implement MagR, we address the $\ell_\infty$-regularization by employing an efficient proximal gradient descent algorithm. Unlike existing preprocessing methods that involve linear transformations and subsequent post-processing steps, which can introduce significant overhead at inference time, MagR functions as a non-linear transformation, eliminating the need for any additional post-processing. This ensures that MagR introduces no overhead whatsoever during inference. Our experiments demonstrate that MagR achieves state-of-the-art performance on the Llama family of models. For example, we achieve a Wikitext2 perplexity of 5.95 on the LLaMA2-70B model for per-channel INT2 weight quantization without incurring any inference overhead.
- Abstract(参考訳): 本稿では,ポストトレーニング量子化の性能を向上させるために,軽量マグニチュード削減(MagR)と呼ばれる単純な最適化に基づく前処理手法を提案する。
各線形層に対して、$\ell_\infty$-regularized optimization 問題を解くことにより、事前訓練された浮動小数点重みを調整する。
このプロセスは、重みの最大等級を著しく減らし、層の出力を保ちながら、外層を滑らかにする。
事前処理された重みはゼロに向けられ、その後の量子化プロセスが促進される。
MagRを実装するために、効率的な近位勾配降下アルゴリズムを用いて$\ell_\infty$-regularizationを提案する。
線形変換やその後の後処理ステップを含む既存の前処理方法とは異なり、MagRは非線形変換として機能し、追加の後処理は不要である。
これにより、MagRは推論時に何のオーバーヘッドも導入しない。
実験により,MagRはLlamaファミリーのモデル上で最先端の性能を達成することを示した。
例えば、LLaMA2-70Bモデル上でWikitext2のパープレキシティを5.95で実現し、チャネルごとのINT2重み量子化を行う。
関連論文リスト
- OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - Magic for the Age of Quantized DNNs [0.6008132390640294]
ミニバッチサイズに依存しない新しい正規化(Layer-Batch Normalization)を導入し,推論時に追加コストを必要としない。
また、同じ関数を用いて活性化関数を量子化し、代理勾配を適用して、量子化重みと量子化活性化関数の両方でモデルを訓練する。
論文 参考訳(メタデータ) (2024-03-22T07:21:09Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Preprint: Norm Loss: An efficient yet effective regularization method
for deep neural networks [7.214681039134488]
斜め多様体に基づく重み付き軟規則化法を提案する。
本手法は, CIFAR-10, CIFAR-100, ImageNet 2012データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-03-11T10:24:49Z) - Cost Function Unrolling in Unsupervised Optical Flow [6.656273171776146]
この研究は、教師なしコスト関数でよく使われるトータル変分半ノルムの導出に焦点を当てている。
我々は、コストアンロールと呼ばれる新しい反復スキームにおいて、ハードL1スムーズネス制約に対する微分可能なプロキシを導出する。
論文 参考訳(メタデータ) (2020-11-30T14:10:03Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。