論文の概要: Efficient Softmax Approximation for Deep Neural Networks with Attention
Mechanism
- arxiv url: http://arxiv.org/abs/2111.10770v1
- Date: Sun, 21 Nov 2021 08:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 08:49:27.443732
- Title: Efficient Softmax Approximation for Deep Neural Networks with Attention
Mechanism
- Title(参考訳): 注意機構を有する深層ニューラルネットワークの効率的なソフトマックス近似
- Authors: Ihor Vasyltsov, Wooseok Chang
- Abstract要約: 本研究では,LookUp Tables (LUT) を用いたソフトマックス計算の2つの手法を提案する。
8ビット近似は,1.0%以下の精度の損失を許容できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a rapid advance of custom hardware (HW) for accelerating the
inference speed of deep neural networks (DNNs). Previously, the softmax layer
was not a main concern of DNN accelerating HW, because its portion is
relatively small in multi-layer perceptron or convolutional neural networks.
However, as the attention mechanisms are widely used in various modern DNNs, a
cost-efficient implementation of softmax layer is becoming very important. In
this paper, we propose two methods to approximate softmax computation, which
are based on the usage of LookUp Tables (LUTs). The required size of LUT is
quite small (about 700 Bytes) because ranges of numerators and denominators of
softmax are stable if normalization is applied to the input. We have validated
the proposed technique over different AI tasks (object detection, machine
translation, sentiment analysis, and semantic equivalence) and DNN models
(DETR, Transformer, BERT) by a variety of benchmarks (COCO17, WMT14, WMT17,
GLUE). We showed that 8-bit approximation allows to obtain acceptable accuracy
loss below $1.0\%$.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の推論速度を加速するカスタムハードウェア(HW)が急速に進歩している。
これまで、ソフトマックス層は、多層パーセプトロンや畳み込みニューラルネットワークでは比較的小さいため、DNNがHWを加速する主な関心事ではなかった。
しかし,近年のDNNでは注目機構が広く採用されているため,ソフトマックス層の実装の費用対効果が非常に重要になっている。
本稿では,ルックアップテーブル(luts)を用いてソフトマックス計算を近似する2つの手法を提案する。
入力に正規化を適用すると、ソフトマックスの数値と分母の範囲が安定であるため、LUTの必要サイズは非常に小さい(約700バイト)。
さまざまなaiタスク(オブジェクト検出,機械翻訳,感情分析,意味等価性)とdnnモデル(detr,transformer,bert)に対して,さまざまなベンチマーク(coco17,wmt14,wmt17,glue)を用いて提案手法を検証する。
8ビット近似により、許容精度の損失が$1.0\%$以下になることを示した。
関連論文リスト
- Towards General Robustness Verification of MaxPool-based Convolutional Neural Networks via Tightening Linear Approximation [51.235583545740674]
MaxLinは、線形近似が厳密なMaxPoolベースのCNNの堅牢性検証器である。
我々は、MNIST、CIFAR-10、Tiny ImageNetデータセットでトレーニングされたLeNetやネットワークを含むオープンソースのベンチマークでMaxLinを評価した。
論文 参考訳(メタデータ) (2024-06-02T10:33:04Z) - NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions [2.7086888205833968]
Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。
本稿では、ニューロンの境界を緩和し、サブネットワーク全体を単一のLUTにマッピングすることを提案する。
提案手法は,既知の遅延クリティカルタスク,ジェットサブストラクチャタグ,古典的コンピュータビジョンタスク,MNISTを用いた桁分類で検証する。
論文 参考訳(メタデータ) (2024-02-29T16:10:21Z) - An Automata-Theoretic Approach to Synthesizing Binarized Neural Networks [13.271286153792058]
量子ニューラルネットワーク(QNN)が開発され、二項化ニューラルネットワーク(BNN)は特殊なケースとしてバイナリ値に制限されている。
本稿では,指定された特性を満たすBNNの自動合成手法を提案する。
論文 参考訳(メタデータ) (2023-07-29T06:27:28Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - SpikeMS: Deep Spiking Neural Network for Motion Segmentation [7.491944503744111]
textitSpikeMSは、モーションセグメンテーションの大規模な問題に対する最初のディープエンコーダデコーダSNNアーキテクチャである。
textitSpikeMSは,テキストインクリメンタルな予測や,より少ない量のテストデータからの予測を行うことができることを示す。
論文 参考訳(メタデータ) (2021-05-13T21:34:55Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Ax-BxP: Approximate Blocked Computation for Precision-Reconfigurable
Deep Neural Network Acceleration [3.7371886886933487]
ディープニューラルネットワーク(DNN)の計算とストレージ要件を最適化する一般的な手法として、精度スケーリングが登場した。
超低精度(sub-8ビット)DNNの作成への取り組みは、与えられたネットワークレベルの精度を達成するために必要な最小精度がネットワーク間で大きく異なることを示唆している。
ビットシリアルハードウェアのような以前の提案は高いオーバーヘッドを発生させ、より精度の低い利点を著しく減らした。
論文 参考訳(メタデータ) (2020-11-25T20:00:38Z) - AutoPruning for Deep Neural Network with Dynamic Channel Masking [28.018077874687343]
深層ニューラルネットワークのための学習に基づくオートプルーニングアルゴリズムを提案する。
まず、各層に対する重みと最良チャネルを目的とする2つの目的の問題を定式化する。
次に、最適なチャネル数と重みを同時に導出するために、別の最適化手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T20:12:46Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。