論文の概要: Compression Scaling Laws:Unifying Sparsity and Quantization
- arxiv url: http://arxiv.org/abs/2502.16440v1
- Date: Sun, 23 Feb 2025 04:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:15.983682
- Title: Compression Scaling Laws:Unifying Sparsity and Quantization
- Title(参考訳): 圧縮スケーリング法則:空間性と量子化の統一
- Authors: Elias Frantar, Utku Evci, Wonpyo Park, Neil Houlsby, Dan Alistarh,
- Abstract要約: プレトレーニング中の大規模言語モデル(LLM)のスケーリング挙動に異なる圧縮手法がどう影響するかを検討する。
重みのみの量子化は強力なパラメータ効率乗算器を実現する一方で、重みとアクティベーションの完全な量子化は低ビット幅でのリターンの低下を示す。
以上の結果から,異なる圧縮手法を共通のスケーリング法枠組みの下で統一できることが示唆された。
- 参考スコア(独自算出の注目度): 65.05818215339498
- License:
- Abstract: We investigate how different compression techniques -- such as weight and activation quantization, and weight sparsity -- affect the scaling behavior of large language models (LLMs) during pretraining. Building on previous work showing that weight sparsity acts as a constant multiplier on model size in scaling laws, we demonstrate that this "effective parameter" scaling pattern extends to quantization as well. Specifically, we establish that weight-only quantization achieves strong parameter efficiency multipliers, while full quantization of both weights and activations shows diminishing returns at lower bitwidths. Our results suggest that different compression techniques can be unified under a common scaling law framework, enabling principled comparison and combination of these methods.
- Abstract(参考訳): 本研究では,重みとアクティベーションの量子化,重みの分散といった異なる圧縮手法が,事前学習時の大規模言語モデル(LLM)のスケーリング挙動に与える影響について検討する。
従来の研究に基づいて、重み空間がスケーリング法則におけるモデルサイズに一定の乗算器として作用することを示し、この「効果的なパラメータ」スケーリングパターンが量子化にまで拡張されることを実証した。
具体的には、重みのみの量子化が強力なパラメータ効率乗算器を実現するのに対して、重みとアクティベーションの完全な量子化は、低ビット幅でのリターンの低下を示す。
提案手法は,異なる圧縮手法を共通のスケーリング法枠組みの下で統一し,これらの手法の原理的比較と組み合わせを可能にすることを示唆している。
関連論文リスト
- DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation [3.78219736760145]
拡散モデルの量子化はモデルを圧縮し加速する有望な方法である。
既存の方法は、低ビット量子化のために、精度と効率の両方を同時に維持することはできない。
拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
論文 参考訳(メタデータ) (2024-09-22T04:21:29Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - Probabilistic Weight Fixing: Large-scale training of neural network
weight uncertainties for quantization [7.2282857478457805]
重み共有量子化は、大規模ニューラルネットワークにおける推論中のエネルギー消費を減らす技術として登場した。
本稿では、ベイズニューラルネットワーク(BNN)に基づく確率的枠組みと、どの重みをどのクラスタ中心に移動できるかを特定する変動緩和法を提案する。
DeiT-Tiny を用いた ImageNet では,最先端の量子化手法 Top-1 の精度が 1.6% 向上した。
論文 参考訳(メタデータ) (2023-09-24T08:04:28Z) - Quantized Sparse Weight Decomposition for Neural Network Compression [12.24566619983231]
このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。
本手法は,ベクトル量子化法や極端圧縮法とは異なり,中等度圧縮法にも適用可能である。
論文 参考訳(メタデータ) (2022-07-22T12:40:03Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。