論文の概要: DBellQuant: Breaking the Bell with Double-Bell Transformation for LLMs Post Training Binarization
- arxiv url: http://arxiv.org/abs/2507.01027v1
- Date: Wed, 18 Jun 2025 06:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.420398
- Title: DBellQuant: Breaking the Bell with Double-Bell Transformation for LLMs Post Training Binarization
- Title(参考訳): DBellQuant: LLM後2値化のためのダブルベル変換によるベル破折術
- Authors: Zijian Ye, Wei Huang, Yifei Yu, Tianhe Ren, Zhongrui Wang, Xiaojuan Qi,
- Abstract要約: DBellQuantは、大規模言語モデルのトレーニング後の量子化フレームワークである。
ほぼ1ビットの重み圧縮と6ビットのアクティベーション量子化を実現し、性能劣化を最小限に抑える。
攻撃的な重み付けとアクティベーション量子化の下で優れたモデル性能を維持することにより、新しい最先端技術を設定する。
- 参考スコア(独自算出の注目度): 38.333517224831624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate remarkable performance but face substantial computational and memory challenges that limit their practical deployment. Quantization has emerged as a promising solution; however, its effectiveness is often limited by quantization errors arising from weight distributions that are not quantization-friendly and the presence of activation outliers. To address these challenges, we introduce DBellQuant, an innovative post-training quantization (PTQ) framework that achieves nearly 1-bit weight compression and 6-bit activation quantization with minimal performance degradation. DBellQuant uses Learnable Transformation for Dual-Bell (LTDB) algorithm, which transforms single-bell weight distributions into dual-bell forms to reduce binarization errors and applies inverse transformations to smooth activations. DBellQuant sets a new state-of-the-art by preserving superior model performance under aggressive weight and activation quantization. For example, on the Wikitext2 dataset, DBellQuant achieves a perplexity of 14.39 on LLaMA2-13B with 6-bit activation quantization, significantly outperforming BiLLM's 21.35 without activation quantization, underscoring its potential in compressing LLMs for real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい性能を示すが、現実的な展開を制限するような計算とメモリの問題に直面している。
量子化は有望な解として現れてきたが、その有効性は量子化にフレンドリでない重量分布とアクティベーションアウトリーの存在から生じる量子化誤差によって制限されることが多い。
これらの課題に対処するために,約1ビットの重み圧縮と6ビットのアクティベーション量子化を実現し,性能劣化を最小限に抑えた,革新的なポストトレーニング量子化(PTQ)フレームワークであるDBellQuantを紹介する。
DBellQuantはLearnerable Transformation for Dual-Bell (LTDB)アルゴリズムを用いており、これはシングルベルの重み分布を2ベル形式に変換し、二値化誤差を低減し、スムーズなアクティベーションに逆変換を適用する。
DBellQuantは、アグレッシブウェイトおよびアクティベーション量子化の下で優れたモデル性能を維持することによって、新しい最先端技術を設定する。
例えば、Wikitext2データセットでは、DBellQuantは6ビットのアクティベーション量子化を持つLLaMA2-13B上で14.39のパープレキシティを実現し、BiLLMの21.35のアクティベーション量子化をはるかに上回っており、現実のアプリケーション向けにLLMを圧縮する可能性を示している。
関連論文リスト
- Achieving binary weight and activation for LLMs using Post-Training Quantization [32.247768389896144]
大規模言語モデル(LLM)を1ビット精度に量子化することは、計算コストを大幅に削減する。
既存の量子化技術は、4ビット以下の重みとアクティベーション精度を使用する場合(W4A4)、顕著な性能劣化に悩まされる。
論文 参考訳(メタデータ) (2025-04-07T04:50:04Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。