論文の概要: BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design
- arxiv url: http://arxiv.org/abs/2604.03957v1
- Date: Sun, 05 Apr 2026 04:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.849644
- Title: BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design
- Title(参考訳): BWTA:アルゴリズムとハードウェアの共設計による2値変換器の精度と効率
- Authors: Yifu Ding, Xianglong Liu, Shenghao Jin, Jinyang Guo, Jiwen Lu,
- Abstract要約: バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
- 参考スコア(独自算出の注目度): 71.97035034203275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra low-bit quantization brings substantial efficiency for Transformer-based models, but the accuracy degradation and limited GPU support hinder its wide usage. In this paper, we analyze zero-point distortion in binarization and propose a Binary Weights & Ternary Activations (BWTA) quantization scheme, which projects tiny values to zero and preserves the accuracy of extremely low-bit models. For training, we propose Smooth Multi-Stage Quantization, combining a Levelwise Degradation Strategy and a Magnitude-Alignment Projection Factor to enable stable and fast convergence. For inference, we develop a BWTA MatMul CUDA kernel with instruction-level parallel bit-packing and comprehensive binary/ternary MatMul implementations for both linear and attention operators, allowing seamless integration across Transformer architectures. Experiments show that BWTA approaches full-precision performance for BERT, with an average 3.5% drop on GLUE and less than 2% drop on five tasks, and achieves comparable perplexity and accuracy for LLMs. In efficiency, it delivers 16 to 24 times kernel-level speedup over FP16 on NVIDIA GPUs, and 216 to 330 tokens/s end-to-end prefill speedup with lower memory footprint on LLMs. As an algorithm-hardware co-design, BWTA demonstrates practical, low-latency ultra-low-bit inference without sacrificing model quality.
- Abstract(参考訳): 超低ビット量子化は、Transformerベースのモデルにかなりの効率をもたらすが、精度の低下とGPUサポートの制限は、その広範囲な使用を妨げる。
本稿では,バイナライゼーションにおけるゼロ点歪みを解析し,小さな値をゼロに投影し,極低ビットモデルの精度を保ったバイナリウェイト・アンド・サーナリー・アクティベーション(BWTA)量子化手法を提案する。
本研究では,Smooth Multi-Stage Quantizationを提案し,安定かつ高速な収束を実現するために,レベルワイド劣化戦略とMagnitude-Alignment Projection Factorを組み合わせた。
推論のために,命令レベル並列ビットパッキングと線形演算子とアテンション演算子の両方に対する包括的バイナリ/3次MatMul実装を備えたBWTA MatMul CUDAカーネルを開発し,トランスフォーマーアーキテクチャ間のシームレスな統合を実現する。
実験の結果、BWTAはBERTの完全精度性能に近づき、GLUEでは平均3.5%、5つのタスクでは2%未満の低下を示し、LLMでは同等の難易度と精度を実現している。
効率面では、NVIDIA GPU上のFP16の16~24倍のカーネルレベルのスピードアップと、216~330トークン/秒のエンドツーエンドプリフィルスピードアップと、LDM上のメモリフットプリントの低下を提供する。
アルゴリズム・ハードウェアの共同設計として、BWTAはモデル品質を犠牲にすることなく実用的で低遅延の超低ビット推論を実証する。
関連論文リスト
- RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。
本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。
RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文 参考訳(メタデータ) (2026-02-05T06:41:11Z) - AMS-QUANT: Adaptive Mantissa Sharing for Floating-point Quantization [7.413057271242686]
量子化、特に浮動小数点量子化は、大きな言語モデル(LLM)推論を高速化できることが知られている。
整数ビット幅から非整数ビット幅への浮動小数点量子化探索を探索するAMS-Quantを提案する。
AMS-Quant はモデルを FP-5.33-e2m3 と FP4.25-e2m2 に量子化し、FP16 の推論よりもデコードを大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2025-10-16T15:37:23Z) - I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation [0.0]
量子化は効率を改善するための効果的な戦略を提供するが、ViTベースのセグメンテーションモデルは低い精度で脆弱である。
I-Segmenterは完全整数のみのViTセグメンテーションフレームワークである。
I-セグメンタは、シングルキャリブレーション画像のワンショットPTQにおいても、競合精度を達成する。
論文 参考訳(メタデータ) (2025-09-12T15:14:19Z) - SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs [10.036727981085223]
SplitQuantV2は、大規模言語モデルの低ビット線形量子化を強化するために設計された革新的なアルゴリズムである。
高度なアルゴリズムに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-03-07T14:59:07Z) - The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。