論文の概要: Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations
- arxiv url: http://arxiv.org/abs/2407.14274v1
- Date: Fri, 19 Jul 2024 12:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 17:34:39.018969
- Title: Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations
- Title(参考訳): RISC-Vコア上の混合精度ニューラルネットワーク:マルチポンプソフトSIMD動作のためのISA拡張
- Authors: Giorgos Armeniakos, Alexis Maras, Sotirios Xydis, Dimitrios Soudris,
- Abstract要約: 現代の組み込みマイクロプロセッサは、混合精度NNを非常に限定的にサポートしている。
本稿では,協調ハードウェア設計,混合精度量子化,ISA拡張,推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。
我々のフレームワークは、平均15倍のエネルギー削減を1%未満の精度で達成でき、ISA非依存のRISC-Vコアよりも優れています。
- 参考スコア(独自算出の注目度): 5.847997723738113
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in quantization and mixed-precision approaches offers substantial opportunities to improve the speed and energy efficiency of Neural Networks (NN). Research has shown that individual parameters with varying low precision, can attain accuracies comparable to full-precision counterparts. However, modern embedded microprocessors provide very limited support for mixed-precision NNs regarding both Instruction Set Architecture (ISA) extensions and their hardware design for efficient execution of mixed-precision operations, i.e., introducing several performance bottlenecks due to numerous instructions for data packing and unpacking, arithmetic unit under-utilizations etc. In this work, we bring together, for the first time, ISA extensions tailored to mixed-precision hardware optimizations, targeting energy-efficient DNN inference on leading RISC-V CPU architectures. To this end, we introduce a hardware-software co-design framework that enables cooperative hardware design, mixed-precision quantization, ISA extensions and inference in cycle-accurate emulations. At hardware level, we firstly expand the ALU unit within our proof-of-concept micro-architecture to support configurable fine grained mixed-precision arithmetic operations. Subsequently, we implement multi-pumping to minimize execution latency, with an additional soft SIMD optimization applied for 2-bit operations. At the ISA level, three distinct MAC instructions are encoded extending the RISC-V ISA, and exposed up to the compiler level, each corresponding to a different mixed-precision operational mode. Our extensive experimental evaluation over widely used DNNs and datasets, such as CIFAR10 and ImageNet, demonstrates that our framework can achieve, on average, 15x energy reduction for less than 1% accuracy loss and outperforms the ISA-agnostic state-of-the-art RISC-V cores.
- Abstract(参考訳): 量子化と混合精度アプローチの最近の進歩は、ニューラルネットワーク(NN)の速度とエネルギー効率を改善するための大きな機会を提供する。
研究により、精度の低い個々のパラメータが、完全精度のパラメータに匹敵する精度に達することが示されている。
しかし、現代の組み込みマイクロプロセッサは、命令セットアーキテクチャ(ISA)拡張と、そのハードウェア設計の両方に関する混合精度NNを非常に限定的にサポートし、混合精度操作の効率的な実行を可能にしている。
本研究は、RISC-VのCPUアーキテクチャにおけるエネルギー効率の高いDNN推論をターゲットとした、混合精度ハードウェア最適化に適したISA拡張を初めて実現したものである。
そこで本研究では,協調ハードウェア設計,混合精度量子化,ISA拡張,サイクル精度エミュレーションにおける推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。
ハードウェアレベルでは、まずALUユニットを概念実証のマイクロアーキテクチャに拡張し、設定可能な微粒混合精度演算をサポートする。
その後,実行遅延を最小限に抑えるためにマルチポンピングを実装し,ソフトSIMDの最適化を2ビット演算に適用した。
ISAレベルでは、3つの異なるMAC命令がRISC-V ISAを拡張してエンコードされ、それぞれ異なる混合精度オペレーティングモードに対応するコンパイラレベルに露出する。
CIFAR10やImageNetのような広く使われているDNNやデータセットに対する大規模な実験により、我々のフレームワークは平均15倍のエネルギー削減を1%未満の精度損失で達成でき、ISA非依存のRISC-Vコアよりも優れた性能を発揮することが示された。
関連論文リスト
- Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文 参考訳(メタデータ) (2023-05-31T02:34:36Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Robust Deep Learning-Based Beamforming Design for RIS-assisted
Multiuser MISO Communications with Practical Constraints [4.727307803726522]
RIS支援マルチユーザマルチインプットシングルアウトプットダウンリンク通信システムについて検討する。
我々は、アクティブビームフォーミングとパッシブビームフォーミングを同時に設計するディープ量子化ニューラルネットワーク(DQNN)を開発した。
提案した2つのDQNNアルゴリズムは、離散位相シフトと不完全なCSIが同時に考慮される場合に拡張する。
論文 参考訳(メタデータ) (2021-11-12T03:53:20Z) - Reconfigurable co-processor architecture with limited numerical
precision to accelerate deep convolutional neural networks [0.38848561367220275]
畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。
本稿では,CNNを高速化するために,モデルに依存しない再構成可能なコプロセッシングアーキテクチャを提案する。
既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
論文 参考訳(メタデータ) (2021-08-21T09:50:54Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Measuring what Really Matters: Optimizing Neural Networks for TinyML [7.455546102930911]
ニューラルネットワーク(NN)は、アーキテクチャと計算の複雑さが前例のない成長を遂げた。
NNをリソース制約のあるデバイスに導入することで、コスト効率の高いデプロイメント、広範な可用性、機密データの保存が可能になる。
この作業は、ユビキタスなARM Cortex-Mアーキテクチャに焦点を当てた、機械学習をMCUに持ち込むという課題に対処する。
論文 参考訳(メタデータ) (2021-04-21T17:14:06Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。