論文の概要: AnyBCQ: Hardware Efficient Flexible Binary-Coded Quantization for Multi-Precision LLMs
- arxiv url: http://arxiv.org/abs/2510.10467v1
- Date: Sun, 12 Oct 2025 06:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.956834
- Title: AnyBCQ: Hardware Efficient Flexible Binary-Coded Quantization for Multi-Precision LLMs
- Title(参考訳): AnyBCQ:マルチ精度LDMのためのハードウェア効率の良いフレキシブルバイナリコード量子化
- Authors: Gunho Park, Jeongin Bae, Beomseok Kwon, Byeongwook Kim, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: ハードウェアフレンドリーなBinary-Coded Quantization(BCQ)のマルチ精度拡張であるAnyBCQを提案する。
我々のプログレッシブな精度拡張メカニズムは、予め割り当てられたバイナリコードを再利用しながら、段階的にスケーリング要素を洗練します。
実験により、AnyBCQは低ビット状態における精度低下を著しく制限することが示された。
- 参考スコア(独自算出の注目度): 14.922926621722235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of large language models (LLMs) is increasingly constrained by memory and latency bottlenecks, motivating the need for quantization techniques that flexibly balance accuracy and efficiency. Recent work has introduced multi-precision models, which enable inference at multiple precisions within a single model depending on runtime constraints. To support such flexibility, quantized weights are often stored as bit-planes, where hardware efficiency improves when the compute operates directly at the bit-plane level and activates only the precision required by each request. In this work, we present AnyBCQ, a hardware-friendly multi-precision extension of Binary-Coded Quantization (BCQ) that supports direct bit-plane operations. By representing weights as binary bit-planes with corresponding scale factors, AnyBCQ enables bit-plane-level computation and maps naturally to accelerator-friendly, bit-parallel arithmetic. Our progressive precision expansion mechanism incrementally refines scaling factors while reusing previously assigned binary codes, yielding monotonic improvements in accuracy as additional bits are enabled. We further co-design a specialized kernel that exploits the BCQ structure to support dynamic per-request precision selection with negligible overhead. Experiments on recent LLMs demonstrate that AnyBCQ significantly narrows the accuracy drop in the low-bit regime (e.g. 2-bit), remains competitive at higher precision, and achieves throughput gains of up to 3.0x over half precision and 1.2x over state-of-the-art multi-precision methods. By aligning algorithmic flexibility with hardware efficiency, AnyBCQ provides a practical foundation for multi-precision LLM deployment across diverse service-level objectives.
- Abstract(参考訳): 大規模言語モデル(LLM)のデプロイメントは、メモリとレイテンシのボトルネックによってますます制限され、正確性と効率性の柔軟にバランスをとる量子化技術の必要性を動機付けている。
最近の研究は、実行時の制約に応じて単一のモデル内で複数の精度で推測できるマルチ精度モデルを導入している。
このような柔軟性をサポートするために、量子化重みはビットプレーンとして格納されることが多く、計算がビットプレーンレベルで直接動作するときにハードウェア効率が向上し、各要求で要求される精度のみを活性化する。
本稿では、直接ビットプレーン操作をサポートするハードウェアフレンドリーなBinary-Coded Quantization(BCQ)のマルチ精度拡張であるAnyBCQを紹介する。
重みを対応するスケール因子を持つバイナリビットプレーンとして表現することにより、AnyBCQはビットプレーンレベルの計算を可能にし、アクセルに優しいビット並列演算に自然にマッピングする。
我々のプログレッシブな精度拡張機構は、予め割り当てられたバイナリコードを再利用しながらスケーリング係数を漸進的に洗練し、追加ビットが有効になるにつれて、精度の単調な改善をもたらす。
さらに、BCQ構造を利用した特別なカーネルを設計し、動的要求毎の精度選択を無視可能なオーバーヘッドでサポートする。
最近のLCM実験では、AnyBCQは低ビット状態(例えば2ビット)の精度低下を著しく制限し、高い精度で競争力を維持し、半精度で最大3.0倍、最先端のマルチ精度で1.2倍のスループット向上を実現している。
アルゴリズムの柔軟性とハードウェア効率を整合させることで、AnyBCQは様々なサービスレベルの目的にまたがるマルチ精度LLMデプロイメントの実践的な基盤を提供する。
関連論文リスト
- MSQ: Memory-Efficient Bit Sparsification Quantization [11.510434574824213]
混合精度量子化は効率と精度のバランスが優れているため、広く好まれる。
メモリ効率の良いビットスカラー化量子化(MSQ)を提案する。
MSQは、トレーニング可能なパラメータの最大8.00倍の削減、トレーニング時間の最大86%の削減を実現している。
論文 参考訳(メタデータ) (2025-07-30T03:21:29Z) - FlexQuant: A Flexible and Efficient Dynamic Precision Switching Framework for LLM Quantization [18.041828697950812]
推論速度と精度のトレードオフを最適化する動的精度スイッチングフレームワークFlexQuantを提案する。
我々の研究は量子化戦略の包括的分析を提供し、最適な切替のための精度要求モデルを導入し、効率的なきめ細かな精密管理を実現する。
実験の結果、FlexQuantは様々な言語タスクで1.3倍のエンドツーエンドのスピードアップを達成し、精度の損失は無視できることがわかった。
論文 参考訳(メタデータ) (2025-05-21T07:42:53Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - Nearly Lossless Adaptive Bit Switching [8.485009775430411]
ImageNet-1K分類の実験結果から,本手法は多精度・混合精度の両面において,最先端のワンショットジョイントQATに十分な利点があることが示された。
論文 参考訳(メタデータ) (2025-02-03T09:46:26Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。