論文の概要: Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference
- arxiv url: http://arxiv.org/abs/2604.02292v1
- Date: Thu, 02 Apr 2026 17:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.972836
- Title: Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference
- Title(参考訳): Integer-Native Edge推論のための高速ソフトマックスサロゲート
- Authors: Dimitrios Danopoulos, Enrico Lupi, Michael Kagan, Maurizio Pierini,
- Abstract要約: 本稿では,最大集中型注目ロジットのクリップ付き線形写像を用いて,指数的ソフトマックス関数に対する有界単調サロゲートを提案する。
この近似は安定確率分布を生成し、元のロジットの順序を保ち、負の値を持たない。
本稿では、AMD Versal AI Engineをターゲットとした高スループットシナリオのためのHCCSのハードウェアモチベーション実装について述べる。
- 参考スコア(独自算出の注目度): 0.8488076117647583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax can become a computational bottleneck in the Transformer model's Multi-Head Attention (MHA) block, particularly in small models under low-precision inference, where exponentiation and normalization incur significant overhead. As such, we suggest using Head-Calibrated Clipped-Linear Softmax (HCCS), a bounded, monotone surrogate to the exponential softmax function, which uses a clipped linear mapping of the max centered attention logits. This approximation produces a stable probability distribution, maintains the ordering of the original logits and has non-negative values. HCCS differs from previous softmax surrogates as it includes a set of lightweight calibration parameters that are optimized offline based on a representative dataset and calibrated for each individual attention head to preserve the statistical properties of the individual heads. We describe a hardware-motivated implementation of HCCS for high-throughput scenarios targeting the AMD Versal AI Engines. The current reference implementations from AMD for this platform rely upon either bfloat16 arithmetic or LUTs to perform the exponential operation, which might limit the throughput of the platform and fail to utilize the high-throughput integer vector processing units of the AI Engine. In contrast, HCCS provides a natural mapping to the AI Engines' int8 multiply accumulate (MAC) units. To the best of our knowledge, this is the first int8 optimized softmax surrogate for AMD AI engines that significantly exceeds the speed performance of other reference implementations while maintaining competitive task accuracy on small or heavily quantized MHA workloads after quantization-aware retraining.
- Abstract(参考訳): ソフトマックスはトランスフォーマーモデルのマルチヘッドアテンション(MHA)ブロックにおいて計算のボトルネックとなり、特に低精度の推論の下では、指数化と正規化がかなりのオーバーヘッドを引き起こす。
そこで我々は,最大中心の注目ロジットをクリップした線形写像を用いた指数的ソフトマックス関数に対して,有界単調な単調サロゲートであるHCCS(Head-Calibrated Clipped-Linear Softmax)を用いることを提案する。
この近似は安定確率分布を生成し、元のロジットの順序を保ち、負の値を持たない。
HCCSは従来のソフトマックスサロゲートと異なり、軽量なキャリブレーションパラメータのセットを含み、代表データセットに基づいてオフラインで最適化され、個々のアテンションヘッドごとにキャリブレーションされ、個々のヘッドの統計特性を保存する。
本稿では,AMD Versal AI Engineをターゲットとした高スループットシナリオのためのハードウェアによるHCCSの実装について述べる。
このプラットフォームに対するAMDの現在のリファレンス実装は、指数演算を実行するためにbfloat16演算またはLUTに依存しており、これはプラットフォームのスループットを制限し、AIエンジンの高スループット整数ベクトル処理ユニットを使用することができない可能性がある。
対照的に、HCCSはAIエンジンのint8乗算(MAC)ユニットへの自然なマッピングを提供する。
我々の知る限り、これはAMD AIエンジンのための最初のint8最適化ソフトマックスサロゲートであり、これは、量子化を意識した再トレーニング後の小型または重定量化したMHAワークロード上での競合タスク精度を維持しながら、他の参照実装の速度性能を大幅に上回っている。
関連論文リスト
- BAPS: A Fine-Grained Low-Precision Scheme for Softmax in Attention via Block-Aware Precision reScaling [12.43240392025487]
特定の8ビット浮動小数点フォーマット (HiF8) とブロック対応のソフトマックス再スケーリングを利用した新しい低精度ワークフローを提案する。
我々のアルゴリズムの革新は、モデルの精度を著しく損なうことなく、低精度のソフトマックスを実現する。
我々の研究は、チップ面積を増大させることなく、エンドツーエンドの推論スループットを2倍にする方法を開拓する。
論文 参考訳(メタデータ) (2026-02-02T13:12:18Z) - BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding [28.11907989174509]
本稿では,事前計算やプロキシスコアを使わずに動的にアテンション行列をプルークする,ドロップインスパースアテンション手法であるBLASSTを紹介する。
本手法では,オンラインソフトマックスからの既定しきい値と既存の情報を用いて,無視可能な注意点の同定を行う。
最適しきい値と文脈長の逆関係を明らかにする自動校正法を開発した。
論文 参考訳(メタデータ) (2025-12-12T23:30:43Z) - SOLE: Hardware-Software Co-design of Softmax and LayerNorm for Efficient Transformer Inference [6.157559748568282]
本稿では,SoftmaxとLayerNormのハードウェア・ソフトウェア共同設計であるSOLEを紹介する。
我々は,SoftmaxとLayerNorm上での低精度計算と低ビット幅記憶を実現する。
論文 参考訳(メタデータ) (2025-10-20T06:09:09Z) - HyperINF: Unleashing the HyperPower of the Schulz's Method for Data Influence Estimation [37.62285675595782]
本稿では,効率よく正確な影響関数近似法であるHyperINFを提案する。
我々は、ヘッセン行列の低ランク近似として、GFIM(Generalized Fisher Information)を用いる。
LoRAでチューニングされたモデルでは、HyperINFは最小限のメモリと計算オーバーヘッドで、より優れたダウンストリーム性能を実現する。
論文 参考訳(メタデータ) (2024-10-07T14:42:45Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Efficient Softmax Approximation for Deep Neural Networks with Attention
Mechanism [0.0]
本研究では,LookUp Tables (LUT) を用いたソフトマックス計算の2つの手法を提案する。
8ビット近似は,1.0%以下の精度の損失を許容できることを示す。
論文 参考訳(メタデータ) (2021-11-21T08:56:29Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。