論文の概要: DBellQuant: Breaking the Bell with Double-Bell Transformation for LLMs Post Training Binarization
- arxiv url: http://arxiv.org/abs/2507.01027v1
- Date: Wed, 18 Jun 2025 06:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.420398
- Title: DBellQuant: Breaking the Bell with Double-Bell Transformation for LLMs Post Training Binarization
- Title(参考訳): DBellQuant: LLM後2値化のためのダブルベル変換によるベル破折術
- Authors: Zijian Ye, Wei Huang, Yifei Yu, Tianhe Ren, Zhongrui Wang, Xiaojuan Qi,
- Abstract要約: DBellQuantは、大規模言語モデルのトレーニング後の量子化フレームワークである。
ほぼ1ビットの重み圧縮と6ビットのアクティベーション量子化を実現し、性能劣化を最小限に抑える。
攻撃的な重み付けとアクティベーション量子化の下で優れたモデル性能を維持することにより、新しい最先端技術を設定する。
- 参考スコア(独自算出の注目度): 38.333517224831624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate remarkable performance but face substantial computational and memory challenges that limit their practical deployment. Quantization has emerged as a promising solution; however, its effectiveness is often limited by quantization errors arising from weight distributions that are not quantization-friendly and the presence of activation outliers. To address these challenges, we introduce DBellQuant, an innovative post-training quantization (PTQ) framework that achieves nearly 1-bit weight compression and 6-bit activation quantization with minimal performance degradation. DBellQuant uses Learnable Transformation for Dual-Bell (LTDB) algorithm, which transforms single-bell weight distributions into dual-bell forms to reduce binarization errors and applies inverse transformations to smooth activations. DBellQuant sets a new state-of-the-art by preserving superior model performance under aggressive weight and activation quantization. For example, on the Wikitext2 dataset, DBellQuant achieves a perplexity of 14.39 on LLaMA2-13B with 6-bit activation quantization, significantly outperforming BiLLM's 21.35 without activation quantization, underscoring its potential in compressing LLMs for real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい性能を示すが、現実的な展開を制限するような計算とメモリの問題に直面している。
量子化は有望な解として現れてきたが、その有効性は量子化にフレンドリでない重量分布とアクティベーションアウトリーの存在から生じる量子化誤差によって制限されることが多い。
これらの課題に対処するために,約1ビットの重み圧縮と6ビットのアクティベーション量子化を実現し,性能劣化を最小限に抑えた,革新的なポストトレーニング量子化(PTQ)フレームワークであるDBellQuantを紹介する。
DBellQuantはLearnerable Transformation for Dual-Bell (LTDB)アルゴリズムを用いており、これはシングルベルの重み分布を2ベル形式に変換し、二値化誤差を低減し、スムーズなアクティベーションに逆変換を適用する。
DBellQuantは、アグレッシブウェイトおよびアクティベーション量子化の下で優れたモデル性能を維持することによって、新しい最先端技術を設定する。
例えば、Wikitext2データセットでは、DBellQuantは6ビットのアクティベーション量子化を持つLLaMA2-13B上で14.39のパープレキシティを実現し、BiLLMの21.35のアクティベーション量子化をはるかに上回っており、現実のアプリケーション向けにLLMを圧縮する可能性を示している。
関連論文リスト
- Achieving binary weight and activation for LLMs using Post-Training Quantization [32.247768389896144]
大規模言語モデル(LLM)を1ビット精度に量子化することは、計算コストを大幅に削減する。
既存の量子化技術は、4ビット以下の重みとアクティベーション精度を使用する場合(W4A4)、顕著な性能劣化に悩まされる。
論文 参考訳(メタデータ) (2025-04-07T04:50:04Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化(LRQ)は、低ランクウェイトスケーリング行列を利用して中間トランスフォーマーブロックの出力を再構成する。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来のLLM PTQよりも, (i) 8ビットの重みとアクティベーションの量子化, (ii) 4ビットの重みと8ビットのアクティベーションの量子化, (iii) 低ビットの重みのみの量子化スキームにおいて, LRQの優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - BiSup: Bidirectional Quantization Error Suppression for Large Language Models [13.042992673384466]
本稿では,双方向量子化誤差抑圧法であるBiSupを紹介する。
BiSupは2つの最先端手法で性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-05-24T08:39:27Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。