論文の概要: Atleus: Accelerating Transformers on the Edge Enabled by 3D Heterogeneous Manycore Architectures
- arxiv url: http://arxiv.org/abs/2501.09588v1
- Date: Thu, 16 Jan 2025 15:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:05.742933
- Title: Atleus: Accelerating Transformers on the Edge Enabled by 3D Heterogeneous Manycore Architectures
- Title(参考訳): Atleus: 3Dの異種多コアアーキテクチャによって実現されたエッジ上のトランスフォーマーの高速化
- Authors: Pratyush Dhingra, Janardhan Rao Doppa, Partha Pratim Pande,
- Abstract要約: Atleusと呼ばれる3次元ヘテロジニアスアーキテクチャの設計を提案する。
Atleusには、トランスフォーマーモデルを加速するために特別に最適化された異種コンピューティングリソースが組み込まれている。
Atleusは, 性能およびエネルギー効率の点で, 既存の最先端技術よりも56倍, 64.5倍高い性能を示した。
- 参考スコア(独自算出の注目度): 18.355570259898
- License:
- Abstract: Transformer architectures have become the standard neural network model for various machine learning applications including natural language processing and computer vision. However, the compute and memory requirements introduced by transformer models make them challenging to adopt for edge applications. Furthermore, fine-tuning pre-trained transformers (e.g., foundation models) is a common task to enhance the model's predictive performance on specific tasks/applications. Existing transformer accelerators are oblivious to complexities introduced by fine-tuning. In this paper, we propose the design of a three-dimensional (3D) heterogeneous architecture referred to as Atleus that incorporates heterogeneous computing resources specifically optimized to accelerate transformer models for the dual purposes of fine-tuning and inference. Specifically, Atleus utilizes non-volatile memory and systolic array for accelerating transformer computational kernels using an integrated 3D platform. Moreover, we design a suitable NoC to achieve high performance and energy efficiency. Finally, Atleus adopts an effective quantization scheme to support model compression. Experimental results demonstrate that Atleus outperforms existing state-of-the-art by up to 56x and 64.5x in terms of performance and energy efficiency respectively
- Abstract(参考訳): トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョンなど、さまざまな機械学習アプリケーションのための標準的なニューラルネットワークモデルとなっている。
しかし、トランスモデルによって導入された計算とメモリの要求は、エッジアプリケーションに採用することを困難にしている。
さらに、微調整事前訓練されたトランスフォーマー(例えば基礎モデル)は、特定のタスク/アプリケーションにおけるモデルの予測性能を高めるための一般的なタスクである。
既存の変圧器加速器は微調整によって導入された複雑さに難渋する。
本稿では, 微調整と推論の両目的のために, トランスフォーマーモデルの高速化に特化して最適化された異種計算資源を組み込んだアトルス(Atleus)と呼ばれる3次元ヘテロジニアスアーキテクチャの設計を提案する。
具体的には、Atleusは不揮発性メモリとシストリックアレイを使用して、統合された3Dプラットフォームを使用してトランスフォーマー計算カーネルを高速化する。
さらに,高性能でエネルギー効率の高いNoCを設計する。
最後に、Atleusはモデル圧縮をサポートする効果的な量子化スキームを採用している。
実験結果から, Atleus は既存の最先端技術よりも56倍, 64.5倍の性能, エネルギー効率に優れていたことが確認された。
関連論文リスト
- Spiking Transformer Hardware Accelerators in 3D Integration [5.426379844893919]
スパイキングニューラルネットワーク(SNN)は計算の強力なモデルであり、リソース制約のあるエッジデバイスやニューロモルフィックハードウェアに適している。
近年出現したスパイク変圧器は、スパイク動作のバイナリ特性を生かして、性能と効率性が期待できる。
論文 参考訳(メタデータ) (2024-11-11T22:08:11Z) - HeTraX: Energy Efficient 3D Heterogeneous Manycore Architecture for Transformer Acceleration [18.355570259898]
本稿では,変圧器モデルの高速化に特化して最適化されたHeTraXと呼ばれる3次元ヘテロジニアスアーキテクチャの設計を提案する。
実験の結果、HeTraXは既存の最先端技術よりも5.6倍のスピードアップを実現し、EDPを14.5倍改善し、熱的実現性を確保した。
論文 参考訳(メタデータ) (2024-08-06T18:48:01Z) - Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。
本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。
実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文 参考訳(メタデータ) (2024-07-16T12:36:10Z) - TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search [74.24393546346974]
近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
論文 参考訳(メタデータ) (2023-08-22T13:08:29Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。