論文の概要: Marsellus: A Heterogeneous RISC-V AI-IoT End-Node SoC with 2-to-8b DNN
Acceleration and 30%-Boost Adaptive Body Biasing
- arxiv url: http://arxiv.org/abs/2305.08415v2
- Date: Wed, 20 Sep 2023 09:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 22:35:14.288984
- Title: Marsellus: A Heterogeneous RISC-V AI-IoT End-Node SoC with 2-to-8b DNN
Acceleration and 30%-Boost Adaptive Body Biasing
- Title(参考訳): Marsellus: 2-to-8b DNNアクセラレーションと30%ブースト適応ボディバイアスを備えた異種RISC-V AI-IoTエンドノードSoC
- Authors: Francesco Conti, Gianna Paulin, Davide Rossi, Alfio Di Mauro, Georg
Rutishauser, Gianmarco Ottavi, Manuel Eggimann, Hayate Okuhara, Luca Benini
- Abstract要約: Marsellusは、GlobalFoundries 22nm FDXで製造されたAI-IoTエンドノード用の全デジタル異種システムである。
2ビットの精度演算では180 Gop/sか3.32 Top/s/W、ハードウェアアクセラレーションされたDNN層では最大637 Gop/sか12.4 Top/s/Wに達する。
- 参考スコア(独自算出の注目度): 11.27460319775991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging Artificial Intelligence-enabled Internet-of-Things (AI-IoT)
System-on-a-Chip (SoC) for augmented reality, personalized healthcare, and
nano-robotics need to run many diverse tasks within a power envelope of a few
tens of mW over a wide range of operating conditions: compute-intensive but
strongly quantized Deep Neural Network (DNN) inference, as well as signal
processing and control requiring high-precision floating-point. We present
Marsellus, an all-digital heterogeneous SoC for AI-IoT end-nodes fabricated in
GlobalFoundries 22nm FDX that combines 1) a general-purpose cluster of 16
RISC-V Digital Signal Processing (DSP) cores attuned for the execution of a
diverse range of workloads exploiting 4-bit and 2-bit arithmetic extensions
(XpulpNN), combined with fused MAC&LOAD operations and floating-point support;
2) a 2-8bit Reconfigurable Binary Engine (RBE) to accelerate 3x3 and 1x1
(pointwise) convolutions in DNNs; 3) a set of On-Chip Monitoring (OCM) blocks
connected to an Adaptive Body Biasing (ABB) generator and a hardware control
loop, enabling on-the-fly adaptation of transistor threshold voltages.
Marsellus achieves up to 180 Gop/s or 3.32 Top/s/W on 2-bit precision
arithmetic in software, and up to 637 Gop/s or 12.4 Top/s/W on
hardware-accelerated DNN layers.
- Abstract(参考訳): 拡張現実、パーソナライズされたヘルスケア、ナノロボティクスのためのAI-IoT(System-on-a-Chip)システム・オン・チップ(SoC)の進化は、計算集約的だが強力な量子化されたDeep Neural Network(DNN)推論や、高精度浮動小数点を必要とする信号処理と制御など、幅広い操作条件において、数十mWのパワーエンベロープ内で多くの多様なタスクを実行する必要がある。
我々はglobalfoundries 22nm fdxで作製したai-iotエンドノードのための全デジタルヘテロジニアスsocであるmarsellusを提案する。
1 RISC-Vデジタル信号処理(DSP)16コアの汎用クラスタで、4ビットと2ビットの算術拡張(XpulpNN)を利用して、MAC&LOAD操作と浮動小数点演算を併用した多様なワークロードを実行する。
2) DNNにおける3x3と1x1(ポイントワイド)の畳み込みを加速する2-8ビット再構成可能なバイナリエンジン(RBE)
3)Adaptive Body Biasing(ABB)ジェネレータとハードウェア制御ループに接続されたオンチップ監視(OCM)ブロックのセットにより、トランジスタ閾値電圧のオンザフライ適応が可能となる。
Marsellusは2ビットの精度演算で最大180 Gop/s、3.32 Top/s/W、ハードウェアアクセラレーションされたDNN層で最大637 Gop/s、12.4 Top/s/Wを達成する。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。
ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。
本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。
ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。
エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文 参考訳(メタデータ) (2024-09-27T09:10:44Z) - BDC-Occ: Binarized Deep Convolution Unit For Binarized Occupancy Network [55.21288428359509]
既存の3D占有ネットワークは重要なハードウェアリソースを必要としており、エッジデバイスの配備を妨げている。
本稿では,バイナライズド・ディープ・コンボリューション(BDC)ユニットを提案し,バイナライズド・ディープ・コンボリューション・レイヤの数を増やしつつ性能を効果的に向上させる。
我々のBDC-Occモデルは既存の3D占有ネットワークをバイナライズするために提案したBDCユニットを適用して作成する。
論文 参考訳(メタデータ) (2024-05-27T10:44:05Z) - Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference [22.9834921448069]
我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
論文 参考訳(メタデータ) (2023-06-08T09:23:46Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - BiFSMN: Binary Neural Network for Keyword Spotting [47.46397208920726]
BiFSMNは、KWSのための正確かつ極効率のバイナリニューラルネットワークである。
実世界のエッジハードウェアにおいて,BiFSMNは22.3倍の高速化と15.5倍のストレージ節約を実現可能であることを示す。
論文 参考訳(メタデータ) (2022-02-14T05:16:53Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and
Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode [14.214500730272256]
Vegaは1.7ドルのMathrmmuWから32.2 GOPS (@ 49.4 mW)ピークまで、NSAA上でスケールアップ可能なIoTエンドノードシステムである。
ベガは8ビットINTで615 GOPS/W、32ビットと16ビットFPで79と129 GFLOPS/WのSoAリード効率を達成する。
論文 参考訳(メタデータ) (2021-10-18T08:47:45Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。