論文の概要: SOLE: Hardware-Software Co-design of Softmax and LayerNorm for Efficient Transformer Inference
- arxiv url: http://arxiv.org/abs/2510.17189v1
- Date: Mon, 20 Oct 2025 06:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.327298
- Title: SOLE: Hardware-Software Co-design of Softmax and LayerNorm for Efficient Transformer Inference
- Title(参考訳): SOLE:効率的なトランスフォーマー推論のためのソフトマックスとレイヤーノームのハードウェアソフト共同設計
- Authors: Wenxun Wang, Shuchang Zhou, Wenyu Sun, Peiqin Sun, Yongpan Liu,
- Abstract要約: 本稿では,SoftmaxとLayerNormのハードウェア・ソフトウェア共同設計であるSOLEを紹介する。
我々は,SoftmaxとLayerNorm上での低精度計算と低ビット幅記憶を実現する。
- 参考スコア(独自算出の注目度): 6.157559748568282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have shown remarkable performance in both natural language processing (NLP) and computer vision (CV) tasks. However, their real-time inference speed and efficiency are limited due to the inefficiency in Softmax and Layer Normalization (LayerNorm). Previous works based on function approximation suffer from inefficient implementation as they place emphasis on computation while disregarding memory overhead concerns. Moreover, such methods rely on retraining to compensate for approximation error which can be costly and inconvenient. In this paper, we present SOLE, a hardware-software co-design for Softmax and LayerNorm which is composed of E2Softmax and AILayerNorm. E2Softmax utilizes log2 quantization of exponent function and log-based division to approximate Softmax while AILayerNorm adopts low-precision statistic calculation. Compared with state-of-the-art designs, we achieve both low-precision calculation and low bit-width storage on Softmax and LayerNorm. Experiments show that SOLE maintains inference accuracy without retraining while offering orders of magnitude speedup and energy savings over GPU, achieving 3.04x, 3.86x energy-efficiency improvements and 2.82x, 3.32x area-efficiency improvements over prior state-of-the-art custom hardware for Softmax and LayerNorm, respectively.
- Abstract(参考訳): 変換器は自然言語処理(NLP)とコンピュータビジョン(CV)の両方で顕著な性能を示した。
しかしながら、そのリアルタイム推論速度と効率は、SoftmaxとLayerNormの非効率性のために制限されている。
関数近似に基づく以前の作業は、メモリオーバーヘッドの懸念を無視しながら計算に重点を置いているため、非効率な実装に悩まされる。
さらに、このような手法はコストがかかり不便な近似誤差を補うために再訓練に依存する。
本稿では,SoftmaxとAILayerNormを組み合わせたSoftmaxとLayerNormのハードウェア・ソフトウェア共同設計であるSOLEを提案する。
E2Softmaxは指数関数と対数分割のlog2量子化を利用してSoftmaxを近似し、AILayerNormは低精度統計計算を採用する。
最先端設計と比較して,SoftmaxおよびLayerNorm上での低精度計算と低ビット幅ストレージを実現する。
実験によると、SOLEはGPUよりも桁違いのスピードアップと省エネを実現しつつ、推論精度を維持しており、SoftmaxとLayerNormの最先端カスタムハードウェアよりも3.04倍、3.86倍のエネルギー効率改善、2.82倍、3.32倍の領域効率改善を実現している。
関連論文リスト
- Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - AdaSplash: Adaptive Sparse Flash Attention [20.28859850361068]
AdaSplashはGPU最適化アルゴリズムの効率と$alpha$-entmaxの空間的利点を組み合わせたアルゴリズムである。
AdaSplashは、既存の$alpha$-entmax実装と比較して、ランタイムとメモリ効率を大幅に改善している。
論文 参考訳(メタデータ) (2025-02-17T17:56:23Z) - SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors [1.8999662338457695]
ソフトマックスやレイヤーノルムのような非線形作用素は、量子化に対する感度のためにボトルネックのままである。
In-Memory Compute (IMC) ハードウェアを用いた整数のみの低精度Softmaxを実装したソフトウェアハードウェアの共同設計手法であるSoftmAPを提案する。
論文 参考訳(メタデータ) (2024-11-26T20:00:54Z) - ConSmax: Hardware-Friendly Alternative Softmax with Learnable Parameters [14.029865087214436]
自己注意機構は、畳み込みニューラルネットワークと反復ニューラルネットワークとを区別して、トランスフォーマーベースの大規模言語モデル(LLM)を区別する。
シリコン上でのリアルタイムLEM推定は、自己注意においてSoftmaxが広く使用されているため、依然として困難である。
我々は,ソフトウェアハードウェアの共同設計であるConstant Softmax(ConSmax)を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:52:52Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。