論文の概要: OpenGeMM: A High-Utilization GeMM Accelerator Generator with Lightweight RISC-V Control and Tight Memory Coupling
- arxiv url: http://arxiv.org/abs/2411.09543v1
- Date: Thu, 14 Nov 2024 15:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:56.741752
- Title: OpenGeMM: A High-Utilization GeMM Accelerator Generator with Lightweight RISC-V Control and Tight Memory Coupling
- Title(参考訳): OpenGeMM:軽量RISC-V制御とTight Memory Couplingを用いた高利用GeMM加速器発電機
- Authors: Xiaoling Yi, Ryan Antonio, Joren Dumoulin, Jiacong Sun, Josse Van Delm, Guilherme Paim, Marian Verhelst,
- Abstract要約: リソース制約のある極端エッジデバイスにデプロイする際、ディープニューラルネットワーク(DNN)は重大な課題に直面している。
オープンソースアクセラレーションプラットフォームOpenGeMMを提案する。
- 参考スコア(独自算出の注目度): 2.869405001718283
- License:
- Abstract: Deep neural networks (DNNs) face significant challenges when deployed on resource-constrained extreme edge devices due to their computational and data-intensive nature. While standalone accelerators tailored for specific application scenarios suffer from inflexible control and limited programmability, generic hardware acceleration platforms coupled with RISC-V CPUs can enable high reusability and flexibility, yet typically at the expense of system level efficiency and low utilization. To fill this gap, we propose OpenGeMM, an open-source acceleration platform, jointly demonstrating high efficiency and utilization, as well as ease of configurability and programmability. OpenGeMM encompasses a parameterized Chisel-coded GeMM accelerator, a lightweight RISC-V processor, and a tightly coupled multi-banked scratchpad memory. The GeMM core utilization and system efficiency are boosted through three mechanisms: configuration pre-loading, input pre-fetching with output buffering, and programmable strided memory access. Experimental results show that OpenGeMM can consistently achieve hardware utilization ranging from 81.89% to 99.34% across diverse CNN and Transformer workloads. Compared to the SotA open-source Gemmini accelerator, OpenGeMM demonstrates a 3.58x to 16.40x speedup on normalized throughput across a wide variety ofGeMM workloads, while achieving 4.68 TOPS/W system efficiency.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、その計算とデータ集約性のため、リソース制約の極端なエッジデバイスにデプロイする場合、重大な課題に直面します。
特定のアプリケーションシナリオに適したスタンドアロンアクセラレータは、柔軟性のない制御とプログラム可能性の制限に悩まされているが、RISC-V CPUと組み合わせた一般的なハードウェアアクセラレーションプラットフォームは、高い再利用性と柔軟性を実現することができる。
このギャップを埋めるために,オープンソースのアクセラレーションプラットフォームであるOpenGeMMを提案する。
OpenGeMMは、パラメータ化されたChiselコード付きGeMMアクセラレータ、軽量RISC-Vプロセッサ、密結合型マルチバンクスクラッチパッドメモリを含んでいる。
GeMMコアの利用率とシステム効率は、設定前ロード、出力バッファリングによる入力前フェッチ、プログラム可能なストリップメモリアクセスの3つのメカニズムによって向上する。
実験の結果、OpenGeMMは様々なCNNおよびTransformerワークロードで81.89%から99.34%のハードウェア利用を継続的に達成できることがわかった。
SotAのオープンソースのGemminiアクセラレータと比較すると、OpenGeMMはGeMMワークロードの正常化スループットを3.58倍から16.40倍に高速化し、4.68TOPS/Wシステム効率を達成した。
関連論文リスト
- SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。
既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。
本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文 参考訳(メタデータ) (2024-11-05T06:59:02Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。
この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。
本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:06:05Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - SMASH: Sparse Matrix Atomic Scratchpad Hashing [0.0]
本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。
我々は原子インストラクションを利用して中間部分積を生成時にマージする。
我々のカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2021-05-29T00:22:50Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph
Neural Networks [3.577310844634503]
本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。
ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
論文 参考訳(メタデータ) (2020-11-07T18:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。