論文の概要: Flex-PE: Flexible and SIMD Multi-Precision Processing Element for AI Workloads
- arxiv url: http://arxiv.org/abs/2412.11702v1
- Date: Mon, 16 Dec 2024 12:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:27.232691
- Title: Flex-PE: Flexible and SIMD Multi-Precision Processing Element for AI Workloads
- Title(参考訳): Flex-PE: AIワークロードのためのフレキシブルおよびSIMDマルチ精度処理要素
- Authors: Mukul Lokhande, Gopal Raut, Santosh Kumar Vishvakarma,
- Abstract要約: 本研究は,フレキシブル・SIMDマルチ精度処理素子(FlexPE)を提案する。
提案設計では,パイプラインモードで最大16倍FxP4,8倍FxP8,4倍FxP16,1倍FxP32のスループットを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid adaptation of data driven AI models, such as deep learning inference, training, Vision Transformers (ViTs), and other HPC applications, drives a strong need for runtime precision configurable different non linear activation functions (AF) hardware support. Existing solutions support diverse precision or runtime AF reconfigurability but fail to address both simultaneously. This work proposes a flexible and SIMD multiprecision processing element (FlexPE), which supports diverse runtime configurable AFs, including sigmoid, tanh, ReLU and softmax, and MAC operation. The proposed design achieves an improved throughput of up to 16X FxP4, 8X FxP8, 4X FxP16 and 1X FxP32 in pipeline mode with 100% time multiplexed hardware. This work proposes an area efficient multiprecision iterative mode in the SIMD systolic arrays for edge AI use cases. The design delivers superior performance with up to 62X and 371X reductions in DMA reads for input feature maps and weight filters in VGG16, with an energy efficiency of 8.42 GOPS / W within the accuracy loss of 2%. The proposed architecture supports emerging 4-bit computations for DL inference while enhancing throughput in FxP8/16 modes for transformers and other HPC applications. The proposed approach enables future energy-efficient AI accelerators in edge and cloud environments.
- Abstract(参考訳): ディープラーニング推論、トレーニング、ビジョントランスフォーマー(ViT)など、データ駆動型AIモデルの迅速な適応は、実行時精度の設定可能な異なる非線形アクティベーション関数(AF)ハードウェアサポートを強く要求する。
既存のソリューションは、さまざまな精度またはランタイムAF再構成性をサポートしているが、両方に同時に対処することができない。
本研究は,Sigmoid,tanh,ReLU,Softmax,MAC操作など,さまざまなランタイム構成可能なAFをサポートするフレキシブルかつSIMDマルチ精度処理素子(FlexPE)を提案する。
提案設計では,パイプラインモードで最大16倍FxP4,8倍FxP8,4倍FxP16,1倍FxP32のスループットを実現する。
本研究は,エッジAI用SIMDシストリックアレイにおける領域効率の良い多重精度反復モードを提案する。
この設計は、VGG16の入力特徴マップと重みフィルターのDMAリードの最大62倍と371倍の削減を達成し、精度2%の損失でエネルギー効率は8.42 GOPS / Wである。
提案アーキテクチャは、DL推論のための新しい4ビット計算をサポートし、トランスフォーマーや他のHPCアプリケーションのためのFxP8/16モードのスループットを向上する。
提案したアプローチは、エッジとクラウド環境における将来のエネルギー効率の高いAIアクセラレータを可能にする。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - JAX-Fluids 2.0: Towards HPC for Differentiable CFD of Compressible
Two-phase Flows [0.0]
JAX-Fluidsは、圧縮可能な単相および二相フロー用に設計されたPythonベースの完全微分可能CFDソルバである。
我々は、GPU(NVIDIA A100グラフィックスカード最大512)とTPU(最大1024 TPU v3コア)のHPCシステム上で効率よくスケールするJAXプリミティブ演算を利用した並列化戦略を導入する。
新しいコードバージョンは、強化された2相フローモデリング機能を提供する。
論文 参考訳(メタデータ) (2024-02-07T19:05:27Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix
Acceleration in Tensorflow Lite [0.0]
FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して複雑さと並列性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
また,ソフトウェア最適化のNEON RUYライブラリ上では,単一コアで最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-04-17T12:31:50Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - FIXAR: A Fixed-Point Deep Reinforcement Learning Platform with
Quantization-Aware Training and Adaptive Parallelism [0.0]
FIXARはSW/HWの共同設計アプローチを用いて、初めて固定点データ型と算術単位を使用する。
量子アウェアトレーニング(QAT)は、アクティベーションの範囲に基づいてデータ精度を低減し、報酬の劣化を最小限に抑えるために再トレーニングを実行する。
FIXARはXilinx U50と25293.3のトレーニングスループット(IPS)と2638.0のIPS/W加速効率で実装された。
論文 参考訳(メタデータ) (2021-02-24T07:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。