論文の概要: Achieving binary weight and activation for LLMs using Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2504.05352v1
- Date: Mon, 07 Apr 2025 04:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:10.019583
- Title: Achieving binary weight and activation for LLMs using Post-Training Quantization
- Title(参考訳): 後処理量子化によるLDMの2重化と活性化の実現
- Authors: Siqing Song, Chuang Wang, Ruiqi Wang, Yi Yang, Xuyao Zhang,
- Abstract要約: 大規模言語モデル(LLM)を1ビット精度に量子化することは、計算コストを大幅に削減する。
既存の量子化技術は、4ビット以下の重みとアクティベーション精度を使用する場合(W4A4)、顕著な性能劣化に悩まされる。
W (1+1)A (1*4) 構成で、重みを1ビットに量子化し、細粒度グループ化のための1ビットを追加し、アクティベーションを4倍のチャネル数で1ビットに量子化するポストトレーニング量子化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.247768389896144
- License:
- Abstract: Quantizing large language models (LLMs) to 1-bit precision significantly reduces computational costs, but existing quantization techniques suffer from noticeable performance degradation when using weight and activation precisions below 4 bits (W4A4). In this paper, we propose a post-training quantization framework with W(1+1)A(1*4) configuration, where weights are quantized to 1 bit with an additional 1 bit for fine-grain grouping and activations are quantized to 1 bit with a 4-fold increase in the number of channels. For weight quantization, we propose utilizing Hessian-aware fine-grained grouping along with an EM-based quantization scheme. For activation quantization, we decompose INT4-quantized activations into a 4 * INT1 format equivalently and simultaneously smooth the scaling factors based on quantization errors, which further reduces the quantization errors in activations. Our method surpasses state-of-the-art (SOTA) LLM quantization baselines on W2A4 across multiple tasks, pushing the boundaries of existing LLM quantization methods toward fully binarized models.
- Abstract(参考訳): 大規模言語モデル(LLM)を1ビット精度に量子化することは計算コストを大幅に削減するが、既存の量子化技術は4ビット未満の重みとアクティベーション精度を使用する場合、顕著な性能劣化に悩まされる(W4A4)。
本稿では,W(1+1)A(1*4)構成のポストトレーニング量子化フレームワークを提案する。このフレームワークでは,重みを1ビットに量子化し,細粒度グループ化のための1ビットを追加し,活性化を4倍のチャネル数で1ビットに量子化する。
重み量子化のために,ヘッセン式細粒度グルーピングとEMに基づく量子化手法を提案する。
アクティベーション量子化では、INT4量子化されたアクティベーションを4 * INT1フォーマットに等価に分解し、量子化エラーに基づいてスケーリングを円滑にすることで、アクティベーションにおける量子化エラーをさらに低減する。
提案手法は,複数のタスクにわたるW2A4上のLLM量子化ベースラインを超越し,既存のLLM量子化手法の境界を完全二項化モデルへと押し上げる。
関連論文リスト
- PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - CrossQuant: A Post-Training Quantization Method with Smaller Quantization Kernel for Precise Large Language Model Compression [6.859010157930106]
学習後量子化(PTQ)は大規模言語モデル(LLM)の圧縮に有効な手法である
量子化カーネル (quantization kernel) とは、ゼロに量子化される活性化の要素の集合のことである。
アクティベーションを定量化するシンプルで効果的な方法であるCrossQuantを提案する。
論文 参考訳(メタデータ) (2024-10-10T00:44:24Z) - MobileQuant: Mobile-friendly Quantization for On-device Language Models [31.75012542498791]
大規模言語モデル(LLM)は言語処理に革命をもたらし、複数のアプリケーションにまたがって優れた結果をもたらしている。
エッジデバイスにLSMをデプロイすることは、メモリ、エネルギ、計算コストに関していくつかの課題をもたらす。
我々は、従来の重み等価変換作業を拡張する、MobileQuantと呼ばれる単純な後学習量子化手法を導入する。
論文 参考訳(メタデータ) (2024-08-25T20:41:22Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化(LRQ)は、低ランクウェイトスケーリング行列を利用して中間トランスフォーマーブロックの出力を再構成する。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来のLLM PTQよりも, (i) 8ビットの重みとアクティベーションの量子化, (ii) 4ビットの重みと8ビットのアクティベーションの量子化, (iii) 低ビットの重みのみの量子化スキームにおいて, LRQの優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。