論文の概要: ConSmax: Hardware-Friendly Alternative Softmax with Learnable Parameters
- arxiv url: http://arxiv.org/abs/2402.10930v3
- Date: Fri, 15 Nov 2024 00:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:21.886399
- Title: ConSmax: Hardware-Friendly Alternative Softmax with Learnable Parameters
- Title(参考訳): ConSmax: 学習可能なパラメータを持つハードウェアフレンドリーな代替ソフトマックス
- Authors: Shiwei Liu, Guanchen Tao, Yifei Zou, Derek Chow, Zichen Fan, Kauna Lei, Bangfei Pan, Dennis Sylvester, Gregory Kielian, Mehdi Saligane,
- Abstract要約: 自己注意機構は、畳み込みニューラルネットワークと反復ニューラルネットワークとを区別して、トランスフォーマーベースの大規模言語モデル(LLM)を区別する。
シリコン上でのリアルタイムLEM推定は、自己注意においてSoftmaxが広く使用されているため、依然として困難である。
我々は,ソフトウェアハードウェアの共同設計であるConstant Softmax(ConSmax)を提案する。
- 参考スコア(独自算出の注目度): 14.029865087214436
- License:
- Abstract: The self-attention mechanism distinguishes transformer-based large language models (LLMs) apart from convolutional and recurrent neural networks. Despite the performance improvement, achieving real-time LLM inference on silicon remains challenging due to the extensive use of Softmax in self-attention. In addition to the non-linearity, the low arithmetic intensity significantly limits processing parallelism, especially when working with longer contexts. To address this challenge, we propose Constant Softmax (ConSmax), a software-hardware co-design that serves as an efficient alternative to Softmax. ConSmax utilizes differentiable normalization parameters to eliminate the need for maximum searching and denominator summation in Softmax. This approach enables extensive parallelization while still executing the essential functions of Softmax. Moreover, a scalable ConSmax hardware design with a bitwidth-split look-up table (LUT) can achieve lossless non-linear operations and support mixed-precision computing. Experimental results show that ConSmax achieves a minuscule power consumption of 0.2mW and an area of 0.0008mm^2 at 1250MHz working frequency in 16nm FinFET technology. For open-source contribution, we further implement our design with the OpenROAD toolchain under SkyWater's 130nm CMOS technology. The corresponding power is 2.69mW and the area is 0.007mm^2. ConSmax achieves 3.35x power savings and 2.75x area savings in 16nm technology, and 3.15x power savings and 4.14x area savings with the open-source EDA toolchain. In the meantime, it also maintains comparable accuracy on the GPT-2 model and the WikiText103 dataset. The project is available at https://github.com/ReaLLMASIC/ConSmax
- Abstract(参考訳): 自己注意機構は、畳み込みニューラルネットワークと反復ニューラルネットワークとを区別して、トランスフォーマーベースの大規模言語モデル(LLM)を区別する。
性能改善にもかかわらず、シリコン上でのリアルタイムLCM推定は、Softmaxを自己注意に広く利用しているため、依然として困難である。
非線型性に加えて、低算術強度は処理の並列性を著しく制限する。
この課題に対処するために,ソフトウェアハードウェアの共同設計であるConstant Softmax(ConSmax)を提案する。
ConSmaxは、Softmaxにおける最大探索および分母和の必要性を排除するために、微分可能な正規化パラメータを利用する。
このアプローチは、Softmaxの本質的な機能を実行しながら、広範な並列化を可能にする。
さらに、ビット幅分割ルックアップテーブル(LUT)を備えたスケーラブルなConSmaxハードウェア設計は、損失のない非線形演算を実現し、混合精度コンピューティングをサポートする。
実験の結果, ConSmax は 16nm FinFET 技術において 0.2mW の極小消費電力を実現し, 動作周波数が 0.0008mm^2 の面積を 1250MHz で達成した。
オープンソースコントリビューションのために、SkyWaterの130nmCMOS技術の下でOpenROADツールチェーンを用いて設計をさらに実施する。
対応する電力は2.69mWで、面積は0.007mm^2である。
ConSmaxは16nm技術で3.35倍の省電力と2.75倍の省電力を実現し、オープンソースのEDAツールチェーンで3.15倍の省電力と4.14倍の省電力を実現している。
一方、GPT-2モデルとWikiText103データセットで同等の精度を維持している。
このプロジェクトはhttps://github.com/ReaLLMASIC/ConSmaxで入手できる。
関連論文リスト
- MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Spectral Aware Softmax for Visible-Infrared Person Re-Identification [123.69049942659285]
Visible-infrared person re-identification (VI-ReID) は、異なるモードの歩行者画像とマッチングすることを目的としている。
既存の手法は依然として、単一モダリティ分類タスクで広く使われているソフトマックス損失訓練パラダイムに従っている。
そこで本研究では, スペクトル対応ソフトマックス(SA-Softmax)の損失について提案する。
論文 参考訳(メタデータ) (2023-02-03T02:57:18Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation [2.3813678058429626]
ソフトマックス関数は、多クラス分類問題に対する人工ニューラルネットワークで広く用いられている。
本稿では,従来のソフトマックスで発生した問題を高次元の分類問題の観点から緩和するために,単純で簡潔なソフトマックス変種であるスパース・ソフトマックスについて実証的研究を行う。
論文 参考訳(メタデータ) (2021-12-23T09:53:38Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Breaking the Softmax Bottleneck for Sequential Recommender Systems with
Dropout and Decoupling [0.0]
SBRSのSoftmaxボトルネックには、さらに多くの側面があることが示されています。
そこで本研究では,これらの問題を緩和するために,D&D(Dropout and Decoupling)というシンプルな手法を提案する。
本手法は,様々なSoftmaxベースのSBRSアルゴリズムの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-11T16:52:23Z) - Exploring Alternatives to Softmax Function [0.5924831288313849]
ソフトマックス関数の代替としてテイラー・ソフトマックス, SM-ソフトマックス, 提案したSM-テイラー・ソフトマックスについて検討した。
異なるデータセット上の画像分類タスクに対する実験により、通常のソフトマックス関数よりも優れたSM-テイラーソフトマックス関数の構成が常に存在することが明らかとなった。
論文 参考訳(メタデータ) (2020-11-23T16:50:18Z) - Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。
近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。
これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文 参考訳(メタデータ) (2020-10-22T05:19:58Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。