論文の概要: Answer Fast: Accelerating BERT on the Tensor Streaming Processor
- arxiv url: http://arxiv.org/abs/2206.11062v1
- Date: Wed, 22 Jun 2022 13:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:08:44.391969
- Title: Answer Fast: Accelerating BERT on the Tensor Streaming Processor
- Title(参考訳): Answer Fast: Tensor Streaming Processor上でのBERTの高速化
- Authors: Ibrahim Ahmed, Sahil Parmar, Matthew Boyd, Michael Beidler, Kris Kang,
Bill Liu, Kyle Roach, John Kim and Dennis Abts
- Abstract要約: テンソルストリーミングプロセッサ上でのBERTモデルの推論を高速化する。
バッチ1の推論に130$mu$sという決定論的テールレイテンシを実現するために,オンチップ行列乗算ユニットを効率的に利用することができる。
- 参考スコア(独自算出の注目度): 3.235049902409623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become a predominant machine learning workload, they are
not only the de-facto standard for natural language processing tasks, but they
are also being deployed in other domains such as vision and speech recognition.
Many of the transformer-based applications are real-time systems such as
machine translation and web search. These real time systems often come with
strict end-to-end inference latency requirements. Unfortunately, while the
majority of the transformer computation comes from matrix multiplications,
transformers also include several non-linear components that tend to become the
bottleneck during an inference. In this work, we accelerate the inference of
BERT models on the tensor streaming processor. By carefully fusing all the
nonlinear components with the matrix multiplication components, we are able to
efficiently utilize the on-chip matrix multiplication units resulting in a
deterministic tail latency of 130 $\mu$s for a batch-1 inference through
BERT-base, which is 6X faster than the current state-of-the-art.
- Abstract(参考訳): トランスフォーマーは機械学習のワークロードの大部分を占めており、自然言語処理タスクのデファクトスタンダードであるだけでなく、視覚や音声認識といった他の領域にもデプロイされている。
トランスフォーマーベースのアプリケーションの多くは、機械翻訳やWeb検索のようなリアルタイムシステムである。
これらのリアルタイムシステムは、しばしば厳格なエンドツーエンドの推論遅延要件を伴います。
残念なことに、トランスフォーマーの計算の大半は行列乗算によるものであるが、トランスフォーマーには推論時にボトルネックになる傾向にあるいくつかの非線形成分も含まれている。
本研究では,テンソルストリーミングプロセッサ上でのBERTモデルの推論を高速化する。
行列乗算成分で全ての非線形成分を慎重に融合させることで、現在の最先端よりも6倍高速なBERTベースのバッチ-1推論において、決定論的テールレイテンシが130$\mu$sとなるようなオンチップ行列乗算単位を効率的に利用することができる。
関連論文リスト
- Practical Computational Power of Linear Transformers and Their Recurrent
and Self-Referential Extensions [15.793406740545024]
線形変換器(LT)やFWP(Fast Weight Programmers)を線形化した自動回帰変換器について検討する。
LTは固定サイズのRNNライクなシーケンスプロセッサと等価であるという意味で特有であり、今や人気になっている自己アテンションネットワークとしても表現できる。
論文 参考訳(メタデータ) (2023-10-24T17:17:01Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - X-Former: In-Memory Acceleration of Transformers [7.194491150684456]
トランスフォーマーは、アテンション機構により、多種多様な自然言語処理(NLP)タスクで大きな成功を収めている。
従来のディープニューラルネットワーク(DNN)アクセラレータは、Transformerを効率的に処理する際の制限に直面している。
非揮発性メモリに基づくインメモリアクセラレータは、この課題に対する効果的な解決策となることを約束する。
我々は、NVMとCMOSの両方の処理要素からなるハイブリッドインメモリハードウェアアクセラレータであるX-Formerを紹介する。
論文 参考訳(メタデータ) (2023-03-13T21:11:54Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Continual Transformers: Redundancy-Free Attention for Online Inference [86.3361797111839]
連続的な入力ストリームにおいて、トランスフォーマーが効率的なオンライントークン・バイ・トケン推論を行うことができるスケールド・ドット・プロダクト・アテンション(Scaled Dot-Product Attention)の新たな定式化を提案する。
我々の修正は純粋に計算順に行われ、生成した出力と学習重量は元のマルチヘッド注意のものと同一である。
論文 参考訳(メタデータ) (2022-01-17T08:20:09Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Streaming Simultaneous Speech Translation with Augmented Memory
Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2020-10-30T18:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。