論文の概要: HBLLM: A Haar-Based Approach for Accurate Structured 1-Bit Quantized LLMs
- arxiv url: http://arxiv.org/abs/2512.00862v2
- Date: Tue, 02 Dec 2025 06:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.082284
- Title: HBLLM: A Haar-Based Approach for Accurate Structured 1-Bit Quantized LLMs
- Title(参考訳): HBLLM:1ビット量子化LLMの高精度化のためのハードルベースアプローチ
- Authors: Ningning Chen, Weicai Ye, Ying Jiang,
- Abstract要約: 本稿では,ウェーブレット強化高忠実度1ビットポストトレーニング量子化法であるHBLLMを紹介する。
OPTモデルとLLaMAモデルで行った実験は、HBLLMが1ドルの量子化で最先端の性能を達成することを示した。
- 参考スコア(独自算出の注目度): 10.993630315378029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HBLLM, a wavelet-enhanced high-fidelity $1$-bit post-training quantization method for Large Language Models (LLMs). By leveraging Haar wavelet transforms to enhance expressive capacity through frequency decomposition, HBLLM significantly improves quantization fidelity while maintaining minimal overhead. This approach features two innovative structure-aware grouping strategies: (1) frequency-aware multi-parameter intra-row grouping and (2) $\ell_2$-norm-based saliency-driven column selection. For non-salient weights, a shared mean is employed across quantization groups within each frequency band to optimize storage efficiency. Experiments conducted on the OPT and LLaMA models demonstrate that HBLLM achieves state-of-the-art performance in $1$-bit quantization, attaining a perplexity of $6.71$ on LLaMA$2$-$13$B with an average weight storage of only $1.08$ bits. Code available at: https://github.com/Yeyke/HBLLM.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) のトレーニング後量子化手法である HBLLM を紹介する。
ハールウェーブレット変換を利用して周波数分解による表現能力を向上させることにより、HBLLMは最小オーバーヘッドを維持しながら量子化の忠実度を大幅に向上する。
本手法は,(1)周波数認識型マルチパラメーター内グループ化と(2)$$\ell_2$-norm型サリエンシ駆動列選択の2つの革新的な構造認識型グループ化戦略を特徴とする。
非塩分重みの場合、共有平均は各周波数帯域内の量子化グループにまたがって使われ、ストレージ効率を最適化する。
OPTモデルとLLaMAモデルで実施された実験では、HBLLMは1ビットの量子化で最先端のパフォーマンスを達成し、LLaMA$2$-13$Bで6.71ドル、平均重量ストレージはわずか1.08ドルである。
コードは、https://github.com/Yeyke/HBLLM.comで公開されている。
関連論文リスト
- SingleQuant: Efficient Quantization of Large Language Models in a Single Pass [17.504732263852876]
量子化切り離しを分離する単一パス量子化フレームワークであるSingleQuantを提案する。
具体的には、SingleQuantはアクティベーションアウトリアをターゲットとしたアライメント回転変換(ART)と統一回転変換(URT)を構築している。
実験の結果、SingleQuantは様々なタスクにまたがる選択されたベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-27T10:46:39Z) - VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。
VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。
また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文 参考訳(メタデータ) (2024-09-25T16:25:45Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。