論文の概要: TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference
- arxiv url: http://arxiv.org/abs/2303.14882v1
- Date: Mon, 27 Mar 2023 02:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:05:23.003392
- Title: TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference
- Title(参考訳): TransCODE: 効率的なトレーニングと推論のためのトランスフォーマーとアクセラレータの共同設計
- Authors: Shikhar Tuli and Niraj K. Jha
- Abstract要約: 本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
- 参考スコア(独自算出の注目度): 6.0093441900032465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated co-design of machine learning models and evaluation hardware is
critical for efficiently deploying such models at scale. Despite the
state-of-the-art performance of transformer models, they are not yet ready for
execution on resource-constrained hardware platforms. High memory requirements
and low parallelizability of the transformer architecture exacerbate this
problem. Recently-proposed accelerators attempt to optimize the throughput and
energy consumption of transformer models. However, such works are either
limited to a one-sided search of the model architecture or a restricted set of
off-the-shelf devices. Furthermore, previous works only accelerate model
inference and not training, which incurs substantially higher memory and
compute resources, making the problem even more challenging. To address these
limitations, this work proposes a dynamic training framework, called DynaProp,
that speeds up the training process and reduces memory consumption. DynaProp is
a low-overhead pruning method that prunes activations and gradients at runtime.
To effectively execute this method on hardware for a diverse set of transformer
architectures, we propose ELECTOR, a framework that simulates transformer
inference and training on a design space of accelerators. We use this simulator
in conjunction with the proposed co-design technique, called TransCODE, to
obtain the best-performing models with high accuracy on the given task and
minimize latency, energy consumption, and chip area. The obtained
transformer-accelerator pair achieves 0.3% higher accuracy than the
state-of-the-art pair while incurring 5.2$\times$ lower latency and 3.0$\times$
lower energy consumption.
- Abstract(参考訳): このようなモデルを大規模に効率的にデプロイするには、機械学習モデルと評価ハードウェアの自動設計が不可欠である。
トランスモデルの最先端性能にもかかわらず、リソース制約のあるハードウェアプラットフォーム上ではまだ実行準備ができていない。
トランスアーキテクチャの高メモリ要求と低並列化性がこの問題を悪化させる。
最近提案されている加速器は、トランスフォーマーモデルのスループットとエネルギー消費を最適化しようとする。
しかし、そのような作品は、モデルアーキテクチャの片側探索か、あるいはオフザシェルフデバイスの制限されたセットに限られる。
さらに、以前の作業はモデル推論を加速するだけであって、トレーニングではないため、メモリと計算リソースが大幅に向上し、問題をさらに難しくしている。
これらの制限に対処するため、この研究はDynaPropと呼ばれる動的トレーニングフレームワークを提案し、トレーニングプロセスを高速化し、メモリ消費を減らす。
DynaPropは、実行時にアクティベーションと勾配を発生させる低オーバーヘッドプルーニング手法である。
多様なトランスアーキテクチャのハードウェア上でこの手法を効果的に実行するために,アクセルの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークELECTORを提案する。
このシミュレータは,提案手法であるTransCODEと組み合わせて,与えられたタスクに対して高い精度で最高の性能のモデルを得るとともに,レイテンシ,エネルギー消費,チップ面積を最小化する。
得られた変圧器・加速器対は、最新技術対よりも0.3%高い精度を達成し、5.2$\times$低レイテンシと3.0$\times$低エネルギー消費をもたらす。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - HeTraX: Energy Efficient 3D Heterogeneous Manycore Architecture for Transformer Acceleration [18.355570259898]
本稿では,変圧器モデルの高速化に特化して最適化されたHeTraXと呼ばれる3次元ヘテロジニアスアーキテクチャの設計を提案する。
実験の結果、HeTraXは既存の最先端技術よりも5.6倍のスピードアップを実現し、EDPを14.5倍改善し、熱的実現性を確保した。
論文 参考訳(メタデータ) (2024-08-06T18:48:01Z) - Accelerating ViT Inference on FPGA through Static and Dynamic Pruning [2.8595179027282907]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて最先端の精度を実現している。
重みとトークンプルーニングは複雑さを減らすためのよく知られた方法である。
FPGA上でのViTの高速化を同時に行うためのアルゴリズムハードウェア符号を提案する。
論文 参考訳(メタデータ) (2024-03-21T00:09:04Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with
Transformers [6.0093441900032465]
自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。
低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:17:23Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。