論文の概要: Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification
- arxiv url: http://arxiv.org/abs/2601.07892v1
- Date: Mon, 12 Jan 2026 08:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.89935
- Title: Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification
- Title(参考訳): ハードウェア効率のよい1.25ビット3値量子化
- Authors: Hong Huang, Decheng Wu, Qiangqiang Hu, Guanghua Yu, Jinhai Yang, Jianchen Zhu, Xue Liu, Dapeng Wu,
- Abstract要約: Sherryはハードウェア効率のよい3次量子化フレームワークである。
我々は,4つの重みのブロックを5ビットにパックすることで,規則化された1.25ビット幅を実現する3:4きめ細粒度空間を導入する。
Intel i7-14700HX CPUでは、私たちの1BモデルはSOTAベースラインと比較して精度の低下をゼロとし、25%のビットセーブと10%のスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 12.62959032199936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) on resource-constrained edge devices is increasingly hindered by prohibitive memory and computational requirements. While ternary quantization offers a compelling solution by reducing weights to {-1, 0, +1}, current implementations suffer from a fundamental misalignment with commodity hardware. Most existing methods must choose between 2-bit aligned packing, which incurs significant bit wastage, or 1.67-bit irregular packing, which degrades inference speed. To resolve this tension, we propose Sherry, a hardware-efficient ternary quantization framework. Sherry introduces a 3:4 fine-grained sparsity that achieves a regularized 1.25-bit width by packing blocks of four weights into five bits, restoring power-of-two alignment. Furthermore, we identify weight trapping issue in sparse ternary training, which leads to representational collapse. To address this, Sherry introduces Arenas, an annealing residual synapse mechanism that maintains representational diversity during training. Empirical evaluations on LLaMA-3.2 across five benchmarks demonstrate that Sherry matches state-of-the-art ternary performance while significantly reducing model size. Notably, on an Intel i7-14700HX CPU, our 1B model achieves zero accuracy loss compared to SOTA baselines while providing 25% bit savings and 10% speed up. The code is available at https://github.com/Tencent/AngelSlim .
- Abstract(参考訳): リソース制約のあるエッジデバイスへのLLM(Large Language Models)の展開は、メモリの禁止と計算要求によってますます妨げられている。
第三次量子化は、重みを {-1, 0, +1} に減らして魅力的な解を与えるが、現在の実装はコモディティハードウェアと根本的な相違に悩まされている。
既存のほとんどの手法では、2ビットのアライメント・パッキングと1.67ビットの不規則なパッキングのどちらかを選択しなければならない。
このテンションを解決するため,ハードウェア効率のよい3次量子化フレームワークであるSherryを提案する。
シェリーは4つの重みのブロックを5ビットにパックし、2つのアライメントを復元することで、規則化された1.25ビット幅を実現する3:4の微細な空間を導入した。
さらに, スパース3次訓練における重み付けの問題点を同定し, 表現的崩壊を招いた。
これを解決するために、Sherry氏はトレーニング中に表現の多様性を維持するアリーナス(Arenas)を紹介した。
LLaMA-3.2の5つのベンチマークに対する実証的な評価は、Sherryが最先端の3次性能にマッチし、モデルサイズを著しく削減していることを示している。
特に、Intel i7-14700HX CPUでは、私たちの1BモデルはSOTAベースラインに比べて精度の低下がゼロであり、25%のビットセーブと10%のスピードアップを実現しています。
コードはhttps://github.com/Tencent/AngelSlim で公開されている。
関連論文リスト
- Tequila: Trapping-free Ternary Quantization for Large Language Models [15.581305342505615]
大規模言語モデル(LLM)をエッジデバイスにデプロイするには,量子化技術が不可欠である。
テキーラ(Tequila)は、デッドゾーントラッピングされた重みを動的バイアスとして再資源化することで、トラップなし量子化最適化手法である。
SOTAベースラインよりも4%の精度向上を実現し、(1%の差で)完全精度のパフォーマンスと3.0倍の推論スピードアップとほぼ一致している。
論文 参考訳(メタデータ) (2025-09-28T11:17:40Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Fast and Efficient 2-bit LLM Inference on GPU: 2/4/16-bit in a Weight Matrix with Asynchronous Dequantization [14.201092042777299]
大規模言語モデル(LLM)は、推論コストが高価である間、様々な領域で印象的な能力を示してきた。
2ビットの単精度重み量子化を適用すると、3%の精度が失われる。
本稿では,各重み行列に対する混合精度量子化と,推論時の非同期dequantizationを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:44:59Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。