論文の概要: Hardware-Efficient Softmax and Layer Normalization with Guaranteed Normalization for Edge Devices
- arxiv url: http://arxiv.org/abs/2604.23647v1
- Date: Sun, 26 Apr 2026 10:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.479521
- Title: Hardware-Efficient Softmax and Layer Normalization with Guaranteed Normalization for Edge Devices
- Title(参考訳): エッジデバイスにおけるハードウェア効率の良いソフトマックスと層正規化
- Authors: Dawon Choi, Hana Kim, Ji-Hoon Kim,
- Abstract要約: Transformerモデルでは、非GEMM操作(特にSoftmaxとLayerNorm)が、その非線形性のためにハードウェアコストを支配していることが多い。
We propose a hardware- efficient Softmax and LayerNorm with Guaranteed Normalization for Edge devices。
- 参考スコア(独自算出の注目度): 3.9787054910412927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Transformer models, non-GEMM (non-General Matrix Multiplication) operations -- especially Softmax and Layer Normalization (LayerNorm) -- often dominate hardware cost due to their nonlinear nature. To address this, previous approximation studies mainly target rank-oriented tasks, which is acceptable for classification. However, edge Natural Language Processing (NLP) applications and edge generative AI are largely evaluated based on score-oriented tasks, so normalization-guaranteed non-GEMM operations are essential. We propose a hardware-efficient Softmax and LayerNorm with Guaranteed Normalization for Edge devices. Our design employs hardware-efficient approximation methods while preserving the normalization (Softmax: $\sum p = 1$, LayerNorm: $σ= 1$). Our architecture is described in Verilog HDL and synthesized using the Samsung 28nm CMOS process. In accuracy evaluation, we achieve high accuracy with minimal degradation: GLUE +0.07%, SQuAD -0.01%, perplexity -0.09%. Implementation results show that our architecture is small: $942\,μm^2$ for Softmax, $1199\,μm^2$ for LayerNorm. Compared to the state of the art, we achieve up to 11x and 14x reduction in area, respectively.
- Abstract(参考訳): Transformerモデルでは、非GEMM(Non-General Matrix Multiplication)演算、特にSoftmaxとLayerNorm(LayerNorm)が、その非線形性のためにハードウェアコストを支配していることが多い。
これを解決するために、従来の近似研究は主にランク指向タスクをターゲットにしており、分類には許容できる。
しかし、エッジ自然言語処理(NLP)アプリケーションとエッジ生成AIは、スコア指向タスクに基づいて大きく評価されているため、正規化保証非GEMM操作が不可欠である。
We propose a hardware- efficient Softmax and LayerNorm with Guaranteed Normalization for Edge devices。
我々の設計では、正規化を保ちながらハードウェア効率のよい近似法を用いている(Softmax: $\sum p = 1$, LayerNorm: $σ= 1$)。
アーキテクチャをVerilog HDLで記述し,Samsung 28nm CMOSプロセスを用いて合成する。
精度評価では, GLUE+0.07%, SQAD-0.01%, パープレキシティー-0.09%の低分解率で高い精度が得られる。
実装結果から,Softmaxは942,μm^2$,LayerNormは199,μm^2$であった。
最先端技術と比較して, 面積の最大11倍, 14倍の削減を実現した。
関連論文リスト
- Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference [0.8488076117647583]
本稿では,最大集中型注目ロジットのクリップ付き線形写像を用いて,指数的ソフトマックス関数に対する有界単調サロゲートを提案する。
この近似は安定確率分布を生成し、元のロジットの順序を保ち、負の値を持たない。
本稿では、AMD Versal AI Engineをターゲットとした高スループットシナリオのためのHCCSのハードウェアモチベーション実装について述べる。
論文 参考訳(メタデータ) (2026-04-02T17:32:29Z) - SOLE: Hardware-Software Co-design of Softmax and LayerNorm for Efficient Transformer Inference [6.157559748568282]
本稿では,SoftmaxとLayerNormのハードウェア・ソフトウェア共同設計であるSOLEを紹介する。
我々は,SoftmaxとLayerNorm上での低精度計算と低ビット幅記憶を実現する。
論文 参考訳(メタデータ) (2025-10-20T06:09:09Z) - Fast and Accurate Homomorphic Softmax Evaluation [2.5766624796160777]
ホモモルフィック暗号化は、マシンラーニング・アズ・ア・サービスのためのセキュアでプライバシ保護のソリューションを構築するための主要なソリューションの1つです。
我々は、$mathrmSM(mathbfx) = left(exp(x_i) / sum_j=1n exp(x_j) right)_1le ile n$で定義されるSoftmax関数に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-15T02:01:36Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Efficient Softmax Approximation for Deep Neural Networks with Attention
Mechanism [0.0]
本研究では,LookUp Tables (LUT) を用いたソフトマックス計算の2つの手法を提案する。
8ビット近似は,1.0%以下の精度の損失を許容できることを示す。
論文 参考訳(メタデータ) (2021-11-21T08:56:29Z) - Consistent Structured Prediction with Max-Min Margin Markov Networks [84.60515484036239]
二項分類のためのマックスマージン法は、最大マージンマルコフネットワーク(M3N$)の名前で構造化予測設定まで拡張されている。
我々は、学習問題を"max-min"マージンの定式化で定義し、結果のメソッドmax-minマージンマルコフネットワーク(M4N$)を命名することで、そのような制限を克服する。
マルチクラス分類,順序回帰,シーケンス予測,ランキング実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-02T10:48:42Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。