論文の概要: Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models
- arxiv url: http://arxiv.org/abs/2508.03332v1
- Date: Tue, 05 Aug 2025 11:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.92918
- Title: Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models
- Title(参考訳): 小言語モデルにおける後処理量子化のためのレイヤワイズ情報の有効性の探索
- Authors: He Xiao, Qingyao Yang, Dirui Xie, Wendong Xu, Wenyong Zhou, Haobo Liu, Zhengwu Liu, Ngai Wong,
- Abstract要約: LieQは、極端に低ビット圧縮下でのサブ7Bモデルの精度を維持するという課題に対処するメトリック駆動フレームワークである。
提案手法では,3つの相補的レイヤワイド診断手法(パープレキシティ・ドロップ,表現コンパクト性,トップkエネルギーゲイン)を導入している。
Qwen3-4Bでは、2.05ビット量子化でFP16ベースライン性能の95.9%を回復し、GPTQを19.7%、AWQを18.1%上回った。
- 参考スコア(独自算出の注目度): 4.238165821317982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models with billions of parameters are often over-provisioned: many layers contribute little unique information yet dominate the memory and energy footprint during inference. We present LieQ, a metric-driven post-training quantization framework that addresses the critical challenge of maintaining accuracy in sub-7B models under extreme low-bit compression. Our method introduces three complementary layer-wise diagnostics-Perplexity Drop, Representational Compactness, and Top-k Energy Gain -that reveal a canonical division of labour across layers, enabling automatic bit-width allocation without gradient updates. Unlike existing approaches that suffer severe accuracy degradation at 2-3 bits precision, LieQ achieves state-of-the-art compression-accuracy trade-offs: on Qwen3-4B, it recovers 95.9% of FP16 baseline performance at 2.05-bit quantization, outperforming GPTQ by 19.7% and AWQ by 18.1% on average across seven zero-shot reasoning tasks. Applied to LLaMA3.2-3B, LieQ maintains 98.2% of baseline accuracy at 2.07-bit precision while enabling 4x memory reduction, establishing new paradigms for deploying small language models on resource-constrained edge devices.
- Abstract(参考訳): 数十億のパラメータを持つ大規模な言語モデルは、しばしば過剰にプロビジョンされる: 多くのレイヤは、ユニークな情報はほとんど提供しないが、推論中にメモリとエネルギーフットプリントを支配している。
我々は,超低ビット圧縮下でのサブ7Bモデルの精度維持という重要な課題に対処する,計量駆動のポストトレーニング量子化フレームワークであるLieQを提案する。
提案手法では,3つの相補的レイヤワイド診断手法(パープレキシティ・ドロップ,表現コンパクト性,Top-k Energy Gain)を導入し,階層間の作業の正準分割を明らかにし,勾配更新を伴わずにビット幅の自動割り当てを実現する。
Qwen3-4Bでは、FP16ベースラインのパフォーマンスの95.9%を2.05ビット量子化で回復し、GPTQを19.7%、AWQを18.1%上回る。
LLaMA3.2-3Bに適用すると、LieQは2.7ビットの精度で98.2%のベースライン精度を維持し、4倍のメモリ削減を実現し、リソース制約のエッジデバイスに小さな言語モデルをデプロイするための新しいパラダイムを確立している。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection [9.961425621432474]
PETRフレームワークの重要なコンポーネントを再設計する量子化対応位置埋め込み変換であるQ-PETRを提案する。
Q-PETRは、標準的な8ビットのトレーニング後量子化の下で、1%未満の性能低下を伴う浮動小数点性能を維持している。
FP32と比較して、Q-PETRは2倍のスピードアップを実現し、メモリ使用量を3倍削減する。
論文 参考訳(メタデータ) (2025-02-21T14:26:23Z) - Direct Quantized Training of Language Models with Stochastic Rounding [12.028887152979046]
様々な大きさのLLaMA構造化モデルの実験結果から,3次値に制約された場合でも,低精度の重み付きトレーニングが実現可能であることが示唆された。
我々のモデルは、FP32から低メモリ環境に移行する際の性能劣化を最小限に抑えながら、精度のスケーリングとメモリ削減に頑健なままです。
論文 参考訳(メタデータ) (2024-12-06T05:41:11Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Efficient Speech Representation Learning with Low-Bit Quantization [32.75829498841329]
音声表現学習モデルにおける最近の量子化手法を適用し,検討する。
1ビットへのアグレッシブ量子化により、86.32%のストレージ削減(4.42 -> 25.23)、88%のランタイム削減(1.00 -> 0.12)とワードエラー率(7.06 -> 15.96)を達成した。
モデル圧縮も目的とするDistillHuBERTと比較すると、2ビット構成ではストレージがわずかに小さく(35.84対46.98)、ワードエラー率(12.68対13.37)、ランタイム推定(0.15対0.73)が向上した。
論文 参考訳(メタデータ) (2022-12-14T06:09:08Z) - Quantization-Guided Training for Compact TinyML Models [8.266286436571887]
最適化された低ビット精度目標に対してDNNトレーニングを導くためのQGT(Quantization Guided Training)手法を提案する。
QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布に向けて重み値を促進する。
論文 参考訳(メタデータ) (2021-03-10T18:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。