論文の概要: BAPS: A Fine-Grained Low-Precision Scheme for Softmax in Attention via Block-Aware Precision reScaling
- arxiv url: http://arxiv.org/abs/2602.02071v1
- Date: Mon, 02 Feb 2026 13:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 00:15:21.599306
- Title: BAPS: A Fine-Grained Low-Precision Scheme for Softmax in Attention via Block-Aware Precision reScaling
- Title(参考訳): BAPS:ブロック認識精度再スケーリングによるソフトマックスの微粒化低精度スキーム
- Authors: Zisheng Ye, Xiaoyu He, Maoyuan Song, Guoliang Qiu, Chao Liao, Chen Wu, Yonggang Sun, Zhichun Li, Xiaoru Xie, Yuanyong Luo, Hu Liu, Pinyan Lu, Heng Liao,
- Abstract要約: 特定の8ビット浮動小数点フォーマット (HiF8) とブロック対応のソフトマックス再スケーリングを利用した新しい低精度ワークフローを提案する。
我々のアルゴリズムの革新は、モデルの精度を著しく損なうことなく、低精度のソフトマックスを実現する。
我々の研究は、チップ面積を増大させることなく、エンドツーエンドの推論スループットを2倍にする方法を開拓する。
- 参考スコア(独自算出の注目度): 12.43240392025487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the performance gains from accelerating quantized matrix multiplication plateau, the softmax operation becomes the critical bottleneck in Transformer inference. This bottleneck stems from two hardware limitations: (1) limited data bandwidth between matrix and vector compute cores, and (2) the significant area cost of high-precision (FP32/16) exponentiation units (EXP2). To address these issues, we introduce a novel low-precision workflow that employs a specific 8-bit floating-point format (HiF8) and block-aware precision rescaling for softmax. Crucially, our algorithmic innovations make low-precision softmax feasible without the significant model accuracy loss that hampers direct low-precision approaches. Specifically, our design (i) halves the required data movement bandwidth by enabling matrix multiplication outputs constrained to 8-bit, and (ii) substantially reduces the EXP2 unit area by computing exponentiations in low (8-bit) precision. Extensive evaluation on language models and multi-modal models confirms the validity of our method. By alleviating the vector computation bottleneck, our work paves the way for doubling end-to-end inference throughput without increasing chip area, and offers a concrete co-design path for future low-precision hardware and software.
- Abstract(参考訳): 量子化行列乗算プラトーの高速化により性能が向上するにつれて、ソフトマックス演算はトランスフォーマー推論における重要なボトルネックとなる。
このボトルネックは、(1)行列とベクトル計算コア間のデータ帯域幅の制限、(2)高精度(FP32/16)指数単位(EXP2)の大幅な領域コストの2つのハードウェア制限に由来する。
これらの問題に対処するために,特定の8ビット浮動小数点フォーマット (HiF8) とブロック認識によるソフトマックスの再スケーリングを利用した,新しい低精度ワークフローを提案する。
重要な点として、我々のアルゴリズムの革新は、精度の低いソフトマックスを、精度の低いアプローチを邪魔するような大きなモデル精度の損失なしに実現可能にする。
特に 私たちのデザインは
i) 8ビットに制約された行列乗算出力を有効にし、必要なデータ移動帯域幅を半減する
(ii) 低(8ビット)精度での指数演算によりEXP2単位面積を大幅に削減する。
言語モデルとマルチモーダルモデルに対する広範囲な評価により,本手法の有効性が確認された。
ベクトル計算のボトルネックを軽減することで、チップ面積を増大させることなくエンドツーエンドの推論スループットを2倍にし、将来的な低精度ハードウェアとソフトウェアのための具体的な共設計パスを提供する。
関連論文リスト
- BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding [28.11907989174509]
本稿では,事前計算やプロキシスコアを使わずに動的にアテンション行列をプルークする,ドロップインスパースアテンション手法であるBLASSTを紹介する。
本手法では,オンラインソフトマックスからの既定しきい値と既存の情報を用いて,無視可能な注意点の同定を行う。
最適しきい値と文脈長の逆関係を明らかにする自動校正法を開発した。
論文 参考訳(メタデータ) (2025-12-12T23:30:43Z) - Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。
本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文 参考訳(メタデータ) (2025-05-20T17:26:12Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - Efficient Softmax Approximation for Deep Neural Networks with Attention
Mechanism [0.0]
本研究では,LookUp Tables (LUT) を用いたソフトマックス計算の2つの手法を提案する。
8ビット近似は,1.0%以下の精度の損失を許容できることを示す。
論文 参考訳(メタデータ) (2021-11-21T08:56:29Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。