論文の概要: NN-LUT: Neural Approximation of Non-Linear Operations for Efficient
Transformer Inference
- arxiv url: http://arxiv.org/abs/2112.02191v1
- Date: Fri, 3 Dec 2021 23:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:09:14.180140
- Title: NN-LUT: Neural Approximation of Non-Linear Operations for Efficient
Transformer Inference
- Title(参考訳): NN-LUT:効率的な変圧器推論のための非線形演算のニューラル近似
- Authors: Joonsang Yu, Junki Park, Seongmin Park, Minsoo Kim, Sihwa Lee, Dong
Hyun Lee, Jungwook Choi
- Abstract要約: GELU、Layer normalization、Softmaxといった非線形演算は、トランスフォーマーモデルのブロックの構築には不可欠だがコストがかかる。
本稿では,効率的なトランスフォーマー推論のためのハードウェアフレンドリな近似フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.329021390526124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Non-linear operations such as GELU, Layer normalization, and Softmax are
essential yet costly building blocks of Transformer models. Several prior works
simplified these operations with look-up tables or integer computations, but
such approximations suffer inferior accuracy or considerable hardware cost with
long latency. This paper proposes an accurate and hardware-friendly
approximation framework for efficient Transformer inference. Our framework
employs a simple neural network as a universal approximator with its structure
equivalently transformed into a LUT. The proposed framework called NN-LUT can
accurately replace all the non-linear operations in popular BERT models with
significant reductions in area, power consumption, and latency.
- Abstract(参考訳): GELU、Layer normalization、Softmaxといった非線形演算は、トランスフォーマーモデルのブロックの構築には不可欠だがコストがかかる。
いくつかの先行研究は、ルックアップテーブルや整数計算でこれらの操作を単純化したが、そのような近似は精度が劣り、長いレイテンシでかなりのハードウェアコストがかかる。
本稿では,効率的なトランスフォーマー推論のためのハードウェアフレンドリな近似フレームワークを提案する。
我々のフレームワークは、その構造を等価にLUTに変換する普遍近似器として、単純なニューラルネットワークを使用している。
NN-LUTと呼ばれる提案されたフレームワークは、人気のあるBERTモデルにおけるすべての非線形操作を、領域、消費電力、レイテンシを大幅に削減して、正確に置き換えることができる。
関連論文リスト
- ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Training Integer-Only Deep Recurrent Neural Networks [3.1829446824051195]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーション関数の適応的片方向線形(PWL)近似をサポートする。
提案手法により,RNNベースの言語モデルでエッジデバイス上で実行可能である。
論文 参考訳(メタデータ) (2022-12-22T15:22:36Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Modeling the AC Power Flow Equations with Optimally Compact Neural
Networks: Application to Unit Commitment [0.0]
本稿では,電力流方程式を十分に高精度に表現できる「最適コンパクト」NNの訓練手法を開発する。
この結果, NNモデルの方がDCと線形化電力フローの双方よりも, 難解な最適化問題に埋め込まれた場合の方が表現力が高いことを示す。
論文 参考訳(メタデータ) (2021-10-21T16:51:43Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural
Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。
提案されたSIDNNは、幅広いOPFスキームと互換性がある。
他のLearning-to-OPFスキームとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-03-27T00:45:23Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Vector-Vector-Matrix Architecture: A Novel Hardware-Aware Framework for
Low-Latency Inference in NLP Applications [23.37992621844846]
ディープニューラルネットワークは、信頼できる自然言語処理(NLP)アプリケーションを構築するための標準アプローチとなっている。
NMTの推論時間において遅延を大幅に低減するベクトルベクトル行列アーキテクチャ(VVMA)を提案する。
提案手法は,NMTで使用するシーケンス・ツー・シーケンスモデルとトランスフォーマーモデルのレイテンシを4倍に削減できることを示す。
論文 参考訳(メタデータ) (2020-10-06T16:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。