論文の概要: X-Former: In-Memory Acceleration of Transformers
- arxiv url: http://arxiv.org/abs/2303.07470v1
- Date: Mon, 13 Mar 2023 21:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:20:28.795705
- Title: X-Former: In-Memory Acceleration of Transformers
- Title(参考訳): X-Former: トランスのメモリ内高速化
- Authors: Shrihari Sridharan, Jacob R. Stevens, Kaushik Roy and Anand
Raghunathan
- Abstract要約: トランスフォーマーは、アテンション機構により、多種多様な自然言語処理(NLP)タスクで大きな成功を収めている。
従来のディープニューラルネットワーク(DNN)アクセラレータは、Transformerを効率的に処理する際の制限に直面している。
非揮発性メモリに基づくインメモリアクセラレータは、この課題に対する効果的な解決策となることを約束する。
我々は、NVMとCMOSの両方の処理要素からなるハイブリッドインメモリハードウェアアクセラレータであるX-Formerを紹介する。
- 参考スコア(独自算出の注目度): 7.194491150684456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved great success in a wide variety of natural
language processing (NLP) tasks due to the attention mechanism, which assigns
an importance score for every word relative to other words in a sequence.
However, these models are very large, often reaching hundreds of billions of
parameters, and therefore require a large number of DRAM accesses. Hence,
traditional deep neural network (DNN) accelerators such as GPUs and TPUs face
limitations in processing Transformers efficiently. In-memory accelerators
based on non-volatile memory promise to be an effective solution to this
challenge, since they provide high storage density while performing massively
parallel matrix vector multiplications within memory arrays. However, attention
score computations, which are frequently used in Transformers (unlike CNNs and
RNNs), require matrix vector multiplications (MVM) where both operands change
dynamically for each input. As a result, conventional NVM-based accelerators
incur high write latency and write energy when used for Transformers, and
further suffer from the low endurance of most NVM technologies. To address
these challenges, we present X-Former, a hybrid in-memory hardware accelerator
that consists of both NVM and CMOS processing elements to execute transformer
workloads efficiently. To improve the hardware utilization of X-Former, we also
propose a sequence blocking dataflow, which overlaps the computations of the
two processing elements and reduces execution time. Across several benchmarks,
we show that X-Former achieves upto 85x and 7.5x improvements in latency and
energy over a NVIDIA GeForce GTX 1060 GPU and upto 10.7x and 4.6x improvements
in latency and energy over a state-of-the-art in-memory NVM accelerator.
- Abstract(参考訳): トランスフォーマーは、アテンション機構によって様々な自然言語処理(nlp)タスクで大きな成功を収めており、シーケンス内の他の単語に対する各単語の重要性スコアを割り当てている。
しかし、これらのモデルは非常に大きく、しばしば数十億のパラメータに到達し、そのため大量のDRAMアクセスを必要とする。
したがって、GPUやTPUといった従来のディープニューラルネットワーク(DNN)アクセラレータは、Transformerを効率的に処理する際の制限に直面している。
非揮発性メモリに基づくインメモリアクセラレータは、メモリアレイ内で超並列行列ベクトル乗算を実行しながら、高いストレージ密度を提供するため、この課題に対する効果的な解決策となる。
しかし、トランスフォーマー(CNNやRNNとは違って)で頻繁に使用されるアテンションスコア計算では、各入力ごとに両方のオペランドが動的に変化する行列ベクトル乗算(MVM)が必要となる。
その結果、従来のNVMベースのアクセラレータでは、Transformerを使用すると書き込みレイテンシと書き込みエネルギが高くなり、ほとんどのNVM技術の耐久性が低下する。
これらの課題に対処するために,NVMおよびCMOS処理要素からなるハイブリッドインメモリハードウェアアクセラレータであるX-Formerを紹介した。
x-formerのハードウェア利用を改善するために,2つの処理要素の計算を重複させ,実行時間を短縮するシーケンスブロッキングデータフローを提案する。
いくつかのベンチマークで、X-FormerはNVIDIA GeForce GTX 1060 GPUでのレイテンシとエネルギーの最大85倍および7.5倍の改善、最先端のインメモリNVMアクセラレータでのレイテンシとエネルギーの最大10.7倍と4.6倍の改善を実現している。
関連論文リスト
- FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - ProTEA: Programmable Transformer Encoder Acceleration on FPGA [0.0]
トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。
TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。
本稿では,最先端の変圧器エンコーダの高密度計算に適したプログラム実行アクセラレータである textitProTEA を紹介する。
論文 参考訳(メタデータ) (2024-09-21T01:44:13Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Efficiency-driven Hardware Optimization for Adversarially Robust Neural
Networks [3.125321230840342]
効率性の高いハードウェア最適化を通じて、Deep Neural Networks(DNN)の対比ロバスト性に対処する方法に焦点を当てます。
そのようなアプローチの1つは、低電力運転をもたらす供給スケーリング(Vdd)を可能にするハイブリッド6T-8TセルによるおよそのデジタルCMOSメモリです。
別のメモリ最適化アプローチは、低エネルギーと面積の要件でマトリックス乗算(MVM)を効率的に実行する記念的なクロスバーの作成を含む。
論文 参考訳(メタデータ) (2021-05-09T19:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。