論文の概要: Tempus Core: Area-Power Efficient Temporal-Unary Convolution Core for Low-Precision Edge DLAs
- arxiv url: http://arxiv.org/abs/2412.19002v1
- Date: Wed, 25 Dec 2024 23:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:19.337941
- Title: Tempus Core: Area-Power Efficient Temporal-Unary Convolution Core for Low-Precision Edge DLAs
- Title(参考訳): Tempus Core: 低精度エッジDLAのための領域電力効率の良い時間・一元変換コア
- Authors: Prabhu Vellaisamy, Harideep Nair, Thomas Kang, Yichen Ni, Haoyang Fan, Bin Qi, Jeff Chen, Shawn Blanton, John Paul Shen,
- Abstract要約: 単項行列乗算ハードウェアは、データの分散性と低精度な値を活用し、ハードウェア効率を向上させることを目的としている。
このような一元的ハードウェアを商用ディープラーニングアクセラレータ(DLA)に統合することは、処理要素(PE)配列データフローの違いによって制限されている。
この研究は、Tempus Coreという、高度にスケーラブルな単項ベースのPEアレイを備えた畳み込みコアを、浴槽(時空単項)乗算器で提示する。
- 参考スコア(独自算出の注目度): 1.9938412996898076
- License:
- Abstract: The increasing complexity of deep neural networks (DNNs) poses significant challenges for edge inference deployment due to resource and power constraints of edge devices. Recent works on unary-based matrix multiplication hardware aim to leverage data sparsity and low-precision values to enhance hardware efficiency. However, the adoption and integration of such unary hardware into commercial deep learning accelerators (DLA) remain limited due to processing element (PE) array dataflow differences. This work presents Tempus Core, a convolution core with highly scalable unary-based PE array comprising of tub (temporal-unary-binary) multipliers that seamlessly integrates with the NVDLA (NVIDIA's open-source DLA for accelerating CNNs) while maintaining dataflow compliance and boosting hardware efficiency. Analysis across various datapath granularities shows that for INT8 precision in 45nm CMOS, Tempus Core's PE cell unit (PCU) yields 59.3% and 15.3% reductions in area and power consumption, respectively, over NVDLA's CMAC unit. Considering a 16x16 PE array in Tempus Core, area and power improves by 75% and 62%, respectively, while delivering 5x and 4x iso-area throughput improvements for INT8 and INT4 precisions. Post-place and route analysis of Tempus Core's PCU shows that the 16x4 PE array for INT4 precision in 45nm CMOS requires only 0.017 mm^2 die area and consumes only 6.2mW of total power. We demonstrate that area-power efficient unary-based hardware can be seamlessly integrated into conventional DLAs, paving the path for efficient unary hardware for edge AI inference.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の複雑さの増大は、エッジデバイスのリソースと電力制約によるエッジ推論デプロイメントに重大な課題をもたらす。
最近の一元行列乗算ハードウェアの研究は、データのスパーシリティと低精度の値を活用し、ハードウェア効率を向上させることを目的としている。
しかし、そのような一元的ハードウェアを商用ディープラーニングアクセラレータ(DLA)に導入し、統合することは、処理要素(PE)配列データフローの違いにより制限されている。
本研究では,NVDLA(NVIDIAのCNNを高速化するオープンソースDLA)とシームレスに統合し,データフローの遵守とハードウェア効率の向上を実現した,高度にスケーラブルなユニカリアベースのPEアレイを備えたコンボリューションコアであるTempus Coreを紹介する。
45nm CMOSのINT8精度では、Tempus CoreのPEセルユニット(PCU)は、それぞれNVDLAのCMACユニットよりも59.3%、消費電力が15.3%減少している。
テンポスコアの16x16 PEアレイを考えると、領域と電力は75%と62%改善し、INT8とINT4のスループットは5xと4xに改善された。
テンポスコアのPCUのポストプレースとルート分析によると、INT4の精度は45nm CMOSで16x4 PEアレイは0.017 mm^2のダイ面積しか必要とせず、総消費電力の6.2mWしか消費していない。
領域電力効率のよい一元的ハードウェアを従来のDLAにシームレスに統合し、エッジAI推論のための効率的な一元的ハードウェアの道を開くことを実証する。
関連論文リスト
- A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit
for Analog In-Memory Computing [10.992736723518036]
固定点演算に基づくNMPU(Near-Memory Digital Processing Unit)を提案する。
従来の手法よりも競争精度と高い計算スループットを実現している。
我々は,AIMCチップのデータを用いてNMPUの有効性を検証するとともに,提案したNMPUを用いたシミュレーションAIMCシステムが,既存のFP16ベースの実装よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-12T10:30:45Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - PDPU: An Open-Source Posit Dot-Product Unit for Deep Learning
Applications [9.253002604030085]
Positは、ディープラーニングアプリケーションのためのIEEE-754浮動小数点フォーマットに代わる有望な代替品だ。
乗算器と加算木の組み合わせ、またはカスケード融合型乗算器の組み合わせによって実装され、計算効率が悪く、ハードウェアのオーバーヘッドが過大になる。
本稿では,資源効率と高スループットのドット生成ハードウェアの実装を容易にするオープンソースのポジットドット生成ユニットPDPUを提案する。
論文 参考訳(メタデータ) (2023-02-03T17:26:12Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and
Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode [14.214500730272256]
Vegaは1.7ドルのMathrmmuWから32.2 GOPS (@ 49.4 mW)ピークまで、NSAA上でスケールアップ可能なIoTエンドノードシステムである。
ベガは8ビットINTで615 GOPS/W、32ビットと16ビットFPで79と129 GFLOPS/WのSoAリード効率を達成する。
論文 参考訳(メタデータ) (2021-10-18T08:47:45Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。