論文の概要: BWLA: Breaking the Barrier of W1AX Post-Training Quantization for LLMs
- arxiv url: http://arxiv.org/abs/2605.00422v1
- Date: Fri, 01 May 2026 05:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.860843
- Title: BWLA: Breaking the Barrier of W1AX Post-Training Quantization for LLMs
- Title(参考訳): BWLA:LDMのW1AX後処理量子化の障壁を突破する
- Authors: Zhixiong Zhao, Zukang Xu, Dawei Yang,
- Abstract要約: 大規模言語モデル(LLM)は、NLPに大きな進歩をもたらしたが、そのかなりのメモリと計算要求は、まだ実用的なデプロイメントを妨げている。
我々は,1ビットの重み量子化を達成しつつ,高精度な学習後量子化フレームワークであるBWLAを提案する。
Qwen3-32Bでは、BWLAは6ビットアクティベーションでWikitext2の難易度11.92に達し、5つのゼロショットタスクを70%以上改善し、3.26倍の推論速度を提供する。
- 参考スコア(独自算出の注目度): 10.07268309735318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have driven major progress in NLP, yet their substantial memory and compute demands still hinder practical deployment. Binarization can compress weights to 1 bit, fundamentally lowering compute and bandwidth cost. However, existing methods cannot address activation heavy tails and thus must keep activations in high precision, preventing true end-to-end acceleration. To overcome this limitation, we propose BWLA (Binarized Weights and Low-bit Activations), the first post-training quantization framework that preserves high accuracy while achieving 1-bit weight quantization together with low-bit activations (e.g., 6 bits). The Orthogonal-Kronecker Transformation (OKT) learns an orthogonal mapping via EM minimization, converting unimodal weights into symmetric bimodal forms while suppressing activation tails and incoherence. The Proximal SVD Projection (PSP) then performs lightweight low-rank refinement through proximal SVD projection, further enhancing quantizability with minimal overhead. On Qwen3-32B, BWLA reaches a Wikitext2 perplexity of 11.92 under 6-bit activations (vs. 38 from SOTA), improves five zero-shot tasks by more than 70%, and delivers 3.26 times inference speedup, demonstrating strong potential for real-world LLM compression and acceleration.
- Abstract(参考訳): 大規模言語モデル(LLM)は、NLPに大きな進歩をもたらしたが、そのかなりのメモリと計算要求は、まだ実用的なデプロイメントを妨げている。
バイナリ化は重みを1ビットに圧縮することができ、基本的に計算コストと帯域幅コストを下げる。
しかし、既存の方法は活性化ヘビーテールに対処できないため、アクティベーションを高精度に保ち、真のエンドツーエンドのアクティベーションを防ぐ必要がある。
この制限を克服するため,BWLA (Binarized Weights and Low-bit Activations) を提案する。
Orthogonal-Kronecker Transformation (OKT) は、EM最小化による直交写像を学習し、活性化尾部と不整合を抑えながら、一乗重みを対称二乗形式に変換する。
近位SVDプロジェクション(PSP)は、近位SVDプロジェクションを通じて軽量の低ランクリファインメントを実行し、最小限のオーバーヘッドで量子化性を高める。
Qwen3-32Bでは、BWLAは6ビットアクティベーションで11.92のWikitext2パープレキシティに達し(SOTAから38まで)、5つのゼロショットタスクを70%以上改善し、3.26倍の推論スピードアップを実現し、現実のLLM圧縮とアクセラレーションの強力な可能性を示している。
関連論文リスト
- SpecQuant: Spectral Decomposition and Adaptive Truncation for Ultra-Low-Bit LLMs Quantization [18.039420989848484]
SpecQuantはアクティベーションアウトレーヤとチャネル間の分散に対処する2段階のフレームワークである。
LLaMA-3 8Bでは、SpecQuantはウェイトとアクティベーションの両方で4ビットの量子化を実現し、ゼロショット精度のギャップは全精度に比べてわずか1.5%に縮小した。
論文 参考訳(メタデータ) (2025-11-11T11:02:13Z) - Squeeze10-LLM: Squeezing LLMs' Weights by 10 Times via a Staged Mixed-Precision Quantization Method [37.70474075872739]
我々は16ビット言語モデルの重み付けを10倍にするためにSqueeze10-LLMを提案する。
重量の80%を1ビットに、20%から4ビットに定量化することで、重量当たり平均1.6ビットを達成する。
LLaMAとLLaMA2の実験により、Squeeze10-LLMは2ビット以下の重みのみの量子化に対して最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-07-24T03:55:19Z) - DBellQuant: Breaking the Bell with Double-Bell Transformation for LLMs Post Training Binarization [38.333517224831624]
DBellQuantは、大規模言語モデルのトレーニング後の量子化フレームワークである。
ほぼ1ビットの重み圧縮と6ビットのアクティベーション量子化を実現し、性能劣化を最小限に抑える。
攻撃的な重み付けとアクティベーション量子化の下で優れたモデル性能を維持することにより、新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2025-06-18T06:41:03Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。