Fugu-MT 論文翻訳(概要): Accelerator-driven Data Arrangement to Minimize Transformers Run-time on Multi-core Architectures

論文の概要: Accelerator-driven Data Arrangement to Minimize Transformers Run-time on Multi-core Architectures

arxiv url: http://arxiv.org/abs/2312.13000v1
Date: Wed, 20 Dec 2023 13:01:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 15:42:23.138865
Title: Accelerator-driven Data Arrangement to Minimize Transformers Run-time on Multi-core Architectures
Title（参考訳）: マルチコアアーキテクチャ上でのトランスフォーマーを最小化するアクセラレータ駆動データアレンジメント
Authors: Alireza Amirshahi, Giovanni Ansaloni, David Atienza
Abstract要約: 人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
参考スコア（独自算出の注目度）: 5.46396577345121
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing complexity of transformer models in artificial intelligence expands their computational costs, memory usage, and energy consumption. Hardware acceleration tackles the ensuing challenges by designing processors and accelerators tailored for transformer models, supporting their computation hotspots with high efficiency. However, memory bandwidth can hinder improvements in hardware accelerators. Against this backdrop, in this paper we propose a novel memory arrangement strategy, governed by the hardware accelerator's kernel size, which effectively minimizes off-chip data access. This arrangement is particularly beneficial for end-to-end transformer model inference, where most of the computation is based on general matrix multiplication (GEMM) operations. Additionally, we address the overhead of non-GEMM operations in transformer models within the scope of this memory data arrangement. Our study explores the implementation and effectiveness of the proposed accelerator-driven data arrangement approach in both single- and multi-core systems. Our evaluation demonstrates that our approach can achieve up to a 2.8x speed increase when executing inferences employing state-of-the-art transformers.
Abstract（参考訳）: 人工知能におけるトランスフォーマーモデルの複雑さの増大は、計算コスト、メモリ使用量、エネルギー消費を増大させる。ハードウェアアクセラレーションは、トランスフォーマーモデルに適したプロセッサやアクセラレータを設計し、高い効率で計算ホットスポットをサポートすることで、続く課題に取り組む。しかし、メモリ帯域幅はハードウェアアクセラレータの改善を妨げる可能性がある。本稿では,オフチップデータアクセスを効果的に最小化するハードウェアアクセラレーションのカーネルサイズによって制御される新しいメモリ配置戦略を提案する。この配置は、計算のほとんどがgemm(general matrix multiplication)演算に基づいているエンドツーエンドトランスフォーマーモデル推論に特に有用である。さらに,このメモリデータアレンジメントの範囲内でのトランスフォーマモデルにおける非GEMM演算のオーバーヘッドに対処する。本研究では,シングルコアとマルチコアシステムの両方において,提案するアクセル駆動型データアレンジメント手法の実装と有効性について検討する。本評価は,最先端トランスフォーマを用いた推論の実行において,最大2.8倍の速度向上を実現することを実証する。

関連論文リスト

An ultra-low-power CGRA for accelerating Transformers at the edge [1.52292571922932]
本稿では,変圧器モデルにおける汎用行列乗算(GEMM)演算を高速化する,超低消費電力粗粒再構成可能アレイ(CGRA)アーキテクチャを提案する。提案アーキテクチャでは,効率的な並列計算のための処理要素の4 x 4配列と,最適化されたLOAD/STORE操作のための専用の4 x 2メモリ操作ブロック(MOB)を統合している。スイッチレスメッシュトーラス相互接続ネットワークは、PEとMOB間の直接通信を可能にすることにより、電力と遅延を最小化する。
論文参考訳（メタデータ） (2025-07-17T08:43:14Z)
Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文参考訳（メタデータ） (2024-09-26T14:17:58Z)
ARTEMIS: A Mixed Analog-Stochastic In-DRAM Accelerator for Transformer Neural Networks [2.9699290794642366]
ARTEMISは、トランスフォーマーモデルのための混合アナログ確率型インDRAMアクセラレータである。解析の結果、ARTEMISはGPU、TPU、CPU、最先端のPIMトランスハードウェアアクセラレータと比較して、少なくとも3.0倍のスピードアップ、1.8倍のエネルギー、そして1.9倍のエネルギー効率を示した。
論文参考訳（メタデータ） (2024-07-17T15:08:14Z)
Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文参考訳（メタデータ） (2024-07-16T12:36:10Z)
RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory Transformer Acceleration [21.196696191478885]
Transformer ModelはDeep Neural Networks(DNN)の最先端を表現している。これらのモデルを処理するには、かなりの計算資源が必要で、結果としてかなりのメモリフットプリントが要求される。本稿では,トランスフォーマ内で様々な非MVM操作を行うことのできる新しいAnalog Content Addressable Memory(ACAM)構造を提案する。
論文参考訳（メタデータ） (2023-11-29T22:45:39Z)
MCUFormer: Deploying Vision Transformers on Microcontrollers with Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。 MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文参考訳（メタデータ） (2023-10-25T18:00:26Z)
Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文参考訳（メタデータ） (2023-10-03T08:44:50Z)
TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文参考訳（メタデータ） (2023-03-27T02:45:18Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文参考訳（メタデータ） (2022-08-12T04:51:49Z)
Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-06-30T09:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。