論文の概要: Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size
- arxiv url: http://arxiv.org/abs/2503.04704v1
- Date: Thu, 06 Mar 2025 18:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:04.310224
- Title: Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size
- Title(参考訳): モデルアーキテクチャとサイズを超えた層レベルエントロピー重み量子化の普遍性
- Authors: Alireza Behtash, Marijan Fofonjka, Ethan Baird, Tyler Mauer, Hossein Moghimifam, David Stout, Joel Dennison,
- Abstract要約: エントロピー重み量子化(EWQ)を用いた選択モデル量子化の新しい手法を提案する。
EWQは、モデルアーキテクチャやサイズに依存しないパフォーマンス劣化を引き起こすことなく、どのブロックを安全に定量化できるかを決定する。
提案手法は一様量子化手法より優れており,MMLU(Massive Multitask Language Understanding)の精度は0.5%の範囲で維持されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present a novel approach to selective model quantization that transcends the limitations of architecture-specific and size-dependent compression methods for Large Language Models (LLMs) using Entropy-Weighted Quantization (EWQ). By analyzing the entropy distribution across transformer blocks, EWQ determines which blocks can be safely quantized without causing significant performance degradation, independent of model architecture or size. Our method outperforms uniform quantization approaches, maintaining Massive Multitask Language Understanding (MMLU) accuracy scores within 0.5% of unquantized models while reducing memory usage by up to 18%. We demonstrate the effectiveness of EWQ across multiple architectures-from 1.6B to 70B parameters-showcasing consistent improvements in the quality-compression trade-off regardless of model scale or architectural design. A surprising finding of EWQ is its ability to reduce perplexity compared to unquantized models, suggesting the presence of beneficial regularization through selective precision reduction. This improvement holds across different model families, indicating a fundamental relationship between layer-level entropy and optimal precision requirements. Additionally, we introduce FastEWQ, a rapid method for entropy distribution analysis that eliminates the need for loading model weights. This technique leverages universal characteristics of entropy distribution that persist across various architectures and scales, enabling near-instantaneous quantization decisions while maintaining 80% classification accuracy with full entropy analysis. Our results demonstrate that effective quantization strategies can be developed independently of specific architectural choices or model sizes, opening new possibilities for efficient LLM deployment.
- Abstract(参考訳): 本稿では,Entropy-Weighted Quantization (EWQ) を用いた大規模言語モデル(LLM)のアーキテクチャ固有およびサイズ依存圧縮手法の限界を超越した選択モデル量子化手法を提案する。
トランスブロック間のエントロピー分布を分析することで、EWQはモデルアーキテクチャやサイズとは無関係に、パフォーマンスを著しく低下させることなく、どのブロックを安全に定量化できるかを決定する。
提案手法は一様量子化手法より優れており,MMLU(Massive Multitask Language Understanding)の精度は0.5%以内であり,メモリ使用量を最大18%削減する。
本稿では, モデルスケールやアーキテクチャ設計に関わらず, 品質圧縮トレードオフにおいて, 1.6B から 70B までの複数のアーキテクチャにおける EWQ の有効性を示す。
EWQの驚くべき発見は、不定量化モデルと比較してパープレキシティを減少させる能力であり、選択的精度の低減による有益な正則化の存在を示唆している。
この改善は異なるモデルファミリにまたがって成り立ち、層レベルのエントロピーと最適な精度要件の基本的な関係を示している。
さらに,エントロピー分布解析の高速な手法であるFastEWQを導入し,モデル重み付けの必要性を排除した。
この手法は、様々なアーキテクチャやスケールにまたがるエントロピー分布の普遍的特性を活用し、完全なエントロピー解析で80%の分類精度を維持しながら、ほぼ瞬時に量子化決定を可能にする。
この結果から, 効率的な量子化戦略は, 特定のアーキテクチャ選択やモデルサイズとは独立して開発できることが示唆された。
関連論文リスト
- QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - QuantNAS for super resolution: searching for efficient
quantization-friendly architectures against quantization noise [19.897685398009912]
本稿では,新しい量子化対応手法であるQuantNASを提案する。
本稿では,エントロピー正則化,量子化ノイズ,適応偏差法(adaptive Deviation for Quantization,ADQ)モジュールを用いて探索手順を強化する。
提案手法は直接量量化よりも30%高速で、より安定である。
論文 参考訳(メタデータ) (2022-08-31T13:12:16Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - HEMP: High-order Entropy Minimization for neural network comPression [20.448617917261874]
我々は、量子化された人工ニューラルネットワークのエントロピーを、正規化項として、降下によって最小化されるコスト関数にプラグインできる微分可能な関数として定式化する。
HEMPは, モデル自体の刈り取りや定量化を目的とした他の手法と相乗効果があり, モデルの性能を損なうことなく, ストレージサイズ圧縮性の観点から大きなメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-07-12T10:17:53Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。