Fugu-MT 論文翻訳(概要): MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization

論文の概要: MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization

arxiv url: http://arxiv.org/abs/2406.00800v1
Date: Sun, 2 Jun 2024 17:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 03:26:39.098367
Title: MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization
Title（参考訳）: MagR:ポストトレーニング量子化の強化のための軽量マグニチュード削減
Authors: Aozhong Zhang, Naigang Wang, Yanxia Deng, Xin Li, Zi Yang, Penghang Yin,
Abstract要約: トレーニング後の量子化性能を向上させるため,重み付きマグニチュード(MagR)を提案する。各線形層に対して, $ell_infty$-regularized optimization 問題を解くことにより,事前学習した浮動小数点重みを調整する。 MagRは、Llamaファミリーのモデル上で最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 6.15064968496484
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present a simple optimization-based preprocessing technique called Weight Magnitude Reduction (MagR) to improve the performance of post-training quantization. For each linear layer, we adjust the pre-trained floating-point weights by solving an $\ell_\infty$-regularized optimization problem. This process greatly diminishes the maximum magnitude of the weights and smooths out outliers, while preserving the layer's output. The preprocessed weights are centered more towards zero, which facilitates the subsequent quantization process. To implement MagR, we address the $\ell_\infty$-regularization by employing an efficient proximal gradient descent algorithm. Unlike existing preprocessing methods that involve linear transformations and subsequent post-processing steps, which can introduce significant overhead at inference time, MagR functions as a non-linear transformation, eliminating the need for any additional post-processing. This ensures that MagR introduces no overhead whatsoever during inference. Our experiments demonstrate that MagR achieves state-of-the-art performance on the Llama family of models. For example, we achieve a Wikitext2 perplexity of 5.95 on the LLaMA2-70B model for per-channel INT2 weight quantization without incurring any inference overhead.
Abstract（参考訳）: 本稿では,ポストトレーニング量子化の性能を向上させるために,軽量マグニチュード削減(MagR)と呼ばれる単純な最適化に基づく前処理手法を提案する。各線形層に対して、$\ell_\infty$-regularized optimization 問題を解くことにより、事前訓練された浮動小数点重みを調整する。このプロセスは、重みの最大等級を著しく減らし、層の出力を保ちながら、外層を滑らかにする。事前処理された重みはゼロに向けられ、その後の量子化プロセスが促進される。 MagRを実装するために、効率的な近位勾配降下アルゴリズムを用いて$\ell_\infty$-regularizationを提案する。線形変換やその後の後処理ステップを含む既存の前処理方法とは異なり、MagRは非線形変換として機能し、追加の後処理は不要である。これにより、MagRは推論時に何のオーバーヘッドも導入しない。実験により,MagRはLlamaファミリーのモデル上で最先端の性能を達成することを示した。例えば、LLaMA2-70Bモデル上でWikitext2のパープレキシティを5.95で実現し、チャネルごとのINT2重み量子化を行う。

関連論文リスト

ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints [64.35580479051208]
以前の作品では、ローランクアダプタ (LoRA) はすべてのアタッチメントポイントに対してランダムに固定されたランクである。本稿では,データ駆動重み初期化法を用いて,LoRAファインチューニングの収束性と最終性能を改善する。
論文参考訳（メタデータ） (2025-07-09T23:52:31Z)
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [18.645267970472936]
量子化ゼロ階最適化(Quantized Zeroth-order Optimization, QZO)は、連続量子化スケールを推定するために摂動させ、訓練を安定させるために方向微分クリッピング法を用いる新しい手法である。 QZOは4ビットLLMの合計メモリコストを18ドル以上削減し、24GBのGPUでLlama-2-13BとStable Diffusion 3.5を微調整できる。
論文参考訳（メタデータ） (2025-05-19T17:55:15Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
TrAct: Making First-layer Pre-Activations Trainable [65.40281259525578]
視覚モデルの第1層の訓練について検討し、画素値と更新等級の関係を明確にする。コントラストの低い画像は、高いコントラストのイメージよりも学習への影響が小さい。非常に明るい、または非常に暗い画像は、適度な明るさのイメージよりも重量に強い影響を与える。
論文参考訳（メタデータ） (2024-10-31T14:25:55Z)
IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。 IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文参考訳（メタデータ） (2024-10-29T05:50:17Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文参考訳（メタデータ） (2024-10-02T17:29:23Z)
STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2024-08-03T15:07:44Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文参考訳（メタデータ） (2024-05-23T20:01:17Z)
Magic for the Age of Quantized DNNs [0.6008132390640294]
ミニバッチサイズに依存しない新しい正規化(Layer-Batch Normalization)を導入し,推論時に追加コストを必要としない。また、同じ関数を用いて活性化関数を量子化し、代理勾配を適用して、量子化重みと量子化活性化関数の両方でモデルを訓練する。
論文参考訳（メタデータ） (2024-03-22T07:21:09Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。量子化空間全体にわたって新しい量子化重みを学習する方法を示す。本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文参考訳（メタデータ） (2023-08-10T14:19:58Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
Preprint: Norm Loss: An efficient yet effective regularization method for deep neural networks [7.214681039134488]
斜め多様体に基づく重み付き軟規則化法を提案する。本手法は, CIFAR-10, CIFAR-100, ImageNet 2012データセットを用いて評価した。
論文参考訳（メタデータ） (2021-03-11T10:24:49Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。