論文の概要: Bit-by-Bit: Progressive QAT Strategy with Outlier Channel Splitting for Stable Low-Bit LLMs
- arxiv url: http://arxiv.org/abs/2604.07888v1
- Date: Thu, 09 Apr 2026 06:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.75097
- Title: Bit-by-Bit: Progressive QAT Strategy with Outlier Channel Splitting for Stable Low-Bit LLMs
- Title(参考訳): ビット・バイ・ビット: 安定低ビットLCMのための外周チャネル分割による進行QAT戦略
- Authors: Binxing Xu, Hao Gu, Lujun Li, Hao Wang, Bei Liu, Jiacheng Liu, Qiyuan Zhu, Xintong Yang, Chao Li, Sirui Han, Yike Guo,
- Abstract要約: 我々は、外部チャネル分割を備えたプログレッシブQATフレームワークBit-by-Bitを提案する。
提案手法は,(1)精度を段階的に低下させるブロックワイド・プログレッシブ・トレーニング,(2)整数量子化格子のネスト構造,(3)ラウンドリング・アウェア・アウトリー・チャネル分割の3つの重要な要素を統合する。
W2A2設定下では、Bit-by-BitはBitDistillerやEfficientQATといったベースラインをLlama2/3で大幅に上回り、2.25 WikiText2 PPLの損失しか得られない。
- 参考スコア(独自算出の注目度): 34.72414661826396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training LLMs at ultra-low precision remains a formidable challenge. Direct low-bit QAT often suffers from convergence instability and substantial training costs, exacerbated by quantization noise from heavy-tailed outlier channels and error accumulation across layers. To address these issues, we present Bit-by-Bit, a progressive QAT framework with outlier channel splitting. Our approach integrates three key components: (1) block-wise progressive training that reduces precision stage by stage, ensuring stable initialization for low-bit optimization; (2) nested structure of integer quantization grids to enable a "train once, deploy any precision" paradigm, allowing a single model to support multiple bit-widths without retraining; (3) rounding-aware outlier channel splitting, which mitigates quantization error while acting as an identity transform that preserves the quantized outputs. Furthermore, we follow microscaling groups with E4M3 scales, capturing dynamic activation ranges in alignment with OCP/NVIDIA standards. To address the lack of efficient 2-bit kernels, we developed custom operators for both W2A2 and W2A16 configurations, achieving up to 11$\times$ speedup over BF16. Under W2A2 settings, Bit-by-Bit significantly outperforms baselines like BitDistiller and EfficientQAT on both Llama2/3, achieving a loss of only 2.25 WikiText2 PPL compared to full-precision models.
- Abstract(参考訳): 超低精度でLSMを訓練することは、依然として非常に難しい課題である。
直接低ビットQATは、しばしば収束不安定性と相当なトレーニングコストに悩まされ、重尾の外れ流路からの量子化ノイズと層間のエラー蓄積によって悪化する。
これらの問題に対処するため、我々は、外部チャネル分割を備えたプログレッシブQATフレームワークBit-by-Bitを紹介した。
提案手法は,(1)精度を段階的に低減し,低ビット最適化の安定した初期化を保証するブロックワイド・プログレッシブ・トレーニング,(2)"トレーニング1回,任意の精度"のパラダイムを実現するための整数量子化グリッドのネスト構造,(3)量子化された出力を保存しながら量子化エラーを緩和するラウンドリング・アウェア・アウトリア・チャネルスプリッティング,の3つの重要なコンポーネントを統合する。
さらに、E4M3スケールのマイクロスケーリンググループをフォローし、OCP/NVIDIA標準に従って動的アクティベーション範囲をキャプチャする。
効率的な2ビットカーネルの欠如に対処するため、我々はW2A2とW2A16の構成用のカスタム演算子を開発し、最大11$\times$BF16の高速化を実現した。
W2A2設定下では、Bit-by-BitはBitDistillerやEfficientQATといったベースラインをLlama2/3で大幅に上回り、2.25 WikiText2 PPLの損失しか得られない。
関連論文リスト
- BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。
本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。
RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文 参考訳(メタデータ) (2026-02-05T06:41:11Z) - SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs [4.946856266233001]
SignRoundV2は訓練後の量子化フレームワークであり、混合精度なしでも非常に効果的である。
提案手法は大規模言語モデルの競合精度を保ち、4-5ビットで約1%のばらつきで生産レベルの性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T12:35:10Z) - OTARo: Once Tuning for All Precisions toward Robust On-Device LLMs [21.55040910903597]
OTARoはデバイス上の大規模言語モデルで量子化精度を柔軟に切り替えることができる新しい手法である。
すべての精度で一貫して強固で堅牢なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-17T08:56:27Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation [0.0]
量子化は効率を改善するための効果的な戦略を提供するが、ViTベースのセグメンテーションモデルは低い精度で脆弱である。
I-Segmenterは完全整数のみのViTセグメンテーションフレームワークである。
I-セグメンタは、シングルキャリブレーション画像のワンショットPTQにおいても、競合精度を達成する。
論文 参考訳(メタデータ) (2025-09-12T15:14:19Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。