論文の概要: SwiftTron: An Efficient Hardware Accelerator for Quantized Transformers
- arxiv url: http://arxiv.org/abs/2304.03986v1
- Date: Sat, 8 Apr 2023 11:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:36:18.776882
- Title: SwiftTron: An Efficient Hardware Accelerator for Quantized Transformers
- Title(参考訳): SwiftTron: 量子トランスフォーマーのための効率的なハードウェアアクセラレータ
- Authors: Alberto Marchisio and Davide Dura and Maurizio Capra and Maurizio
Martina and Guido Masera and Muhammad Shafique
- Abstract要約: 量子トランスフォーマーの計算集約操作は、リソース制約のEdgeAI/microMLデバイスへのデプロイにおいて、大きな課題をもたらす。
我々は,量子トランスフォーマー用に設計された,効率的なハードウェアアクセラレータSwiftTronを提案する。
我々の加速器は、RoBERTaベースモデルを1.83 nsで実行し、33.64 mWの電力を消費し、面積は273 mm2である。
- 参考スコア(独自算出の注目度): 11.631442682756203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers' compute-intensive operations pose enormous challenges for their
deployment in resource-constrained EdgeAI / tinyML devices. As an established
neural network compression technique, quantization reduces the hardware
computational and memory resources. In particular, fixed-point quantization is
desirable to ease the computations using lightweight blocks, like adders and
multipliers, of the underlying hardware. However, deploying fully-quantized
Transformers on existing general-purpose hardware, generic AI accelerators, or
specialized architectures for Transformers with floating-point units might be
infeasible and/or inefficient.
Towards this, we propose SwiftTron, an efficient specialized hardware
accelerator designed for Quantized Transformers. SwiftTron supports the
execution of different types of Transformers' operations (like Attention,
Softmax, GELU, and Layer Normalization) and accounts for diverse scaling
factors to perform correct computations. We synthesize the complete SwiftTron
architecture in a $65$ nm CMOS technology with the ASIC design flow. Our
Accelerator executes the RoBERTa-base model in 1.83 ns, while consuming 33.64
mW power, and occupying an area of 273 mm^2. To ease the reproducibility, the
RTL of our SwiftTron architecture is released at
https://github.com/albertomarchisio/SwiftTron.
- Abstract(参考訳): Transformerの計算集約操作は、リソースに制約のあるEdgeAI / smallMLデバイスへのデプロイにおいて、大きな課題となる。
確立されたニューラルネットワーク圧縮技術として、量子化はハードウェア計算とメモリ資源を減らす。
特に、固定点量子化は、基礎となるハードウェアの加算器や乗算器のような軽量ブロックを使った計算を容易にするために望ましい。
しかし、既存の汎用ハードウェアや汎用AIアクセラレータ、あるいは浮動小数点ユニットを備えたトランスフォーマー専用のアーキテクチャに完全に量子化されたトランスフォーマーをデプロイすることは、実現不可能または/または非効率である。
そこで我々は,量子トランスフォーマー用に設計された,効率的なハードウェアアクセラレータSwiftTronを提案する。
SwiftTronは、さまざまなタイプのTransformer操作(Attention、Softmax、GELU、Layer Normalizationなど)の実行をサポートし、正しい計算を行うためのさまざまなスケーリング要因を説明できる。
ASIC設計フローを用いて,完全なSwiftTronアーキテクチャを65ドル nm CMOS 技術で合成する。
我々の加速器はRoBERTaベースモデルを1.83 nsで実行し、33.64 mWの電力を消費し、面積は273 mm^2である。
再現性を容易にするため、SwiftTronアーキテクチャのRTLはhttps://github.com/albertomarchisio/SwiftTronでリリースされています。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - SparseSwin: Swin Transformer with Sparse Transformer Block [1.7243216387069678]
本稿では,パラメータ数を削減し,変換器をより効率的にすることを目的とする。
Sparse Transformer (SparTa) Block は,スパーストークンコンバータを付加した改良型トランスブロックである。
提案されたSparseSwinモデルは、イメージNet100、CIFAR10、CIFAR100のデータセットでそれぞれ86.96%、97.43%、85.35%の精度で、画像分類における他の技術モデルよりも優れている。
論文 参考訳(メタデータ) (2023-09-11T04:03:43Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-10-21T17:31:57Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。