論文の概要: MCU-MixQ: A HW/SW Co-optimized Mixed-precision Neural Network Design Framework for MCUs
- arxiv url: http://arxiv.org/abs/2407.18267v1
- Date: Wed, 17 Jul 2024 14:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 01:35:56.032124
- Title: MCU-MixQ: A HW/SW Co-optimized Mixed-precision Neural Network Design Framework for MCUs
- Title(参考訳): MCU-MixQ:MCUのためのHW/SW共最適化混合精度ニューラルネットワーク設計フレームワーク
- Authors: Junfeng Gong, Cheng Liu, Long Cheng, Huawei Li, Xiaowei Li,
- Abstract要約: ニューラルネットワーク処理に十分なデータ幅を利用する混合精度ニューラルネットワーク(MPNN)は、厳密なリソース制約を満たすための効果的なアプローチである。
しかし、MCUクラスのISAにはサブバイトと混合精度のSIMD操作がない。
本研究では,複数の低ビット幅演算を単一の命令多重データ(SIMD)命令にパックする手法を提案する。
- 参考スコア(独自算出の注目度): 9.719789698194154
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixed-precision neural network (MPNN) that utilizes just enough data width for the neural network processing is an effective approach to meet the stringent resources constraints including memory and computing of MCUs. Nevertheless, there is still a lack of sub-byte and mixed-precision SIMD operations in MCU-class ISA and the limited computing capability of MCUs remains underutilized, which further aggravates the computing bound encountered in neural network processing. As a result, the benefits of MPNNs cannot be fully unleashed. In this work, we propose to pack multiple low-bitwidth arithmetic operations within a single instruction multiple data (SIMD) instructions in typical MCUs, and then develop an efficient convolution operator by exploring both the data parallelism and computing parallelism in convolution along with the proposed SIMD packing. Finally, we further leverage Neural Architecture Search (NAS) to build a HW/SW co-designed MPNN design framework, namely MCU-MixQ. This framework can optimize both the MPNN quantization and MPNN implementation efficiency, striking an optimized balance between neural network performance and accuracy. According to our experiment results, MCU-MixQ achieves 2.1$\times$ and 1.4$\times$ speedup over CMix-NN and MCUNet respectively under the same resource constraints.
- Abstract(参考訳): ニューラルネットワーク処理に十分なデータ幅を利用する混合精度ニューラルネットワーク(MPNN)は、MCUのメモリや計算を含む厳しいリソース制約を満たすための効果的なアプローチである。
それでも、MCUクラスのISAにはサブバイトと混合精度のSIMD操作がまだ欠けており、MCUの限られた計算能力は未利用のままであり、ニューラルネットワーク処理で遭遇する計算能力はさらに増大している。
このため、MPNNの利点を完全には解き放たない。
本研究では,複数の低ビット幅演算を1命令のSIMD命令にまとめて,データ並列性と計算並列性の両方を畳み込みで探索し,効率的な畳み込み演算子を開発することを提案する。
最後に、ニューラルネットワークサーチ(NAS)を活用して、HW/SWが共同設計したMPNN設計フレームワーク、すなわちMCU-MixQを構築する。
このフレームワークはMPNN量子化とMPNN実装の効率を最適化し、ニューラルネットワークの性能と精度のバランスを最適化することができる。
実験結果によると,MCU-MixQ は CMix-NN と MCUNet でそれぞれ 2.1$\times$ と 1.4$\times$ を達成する。
関連論文リスト
- Scalable Mechanistic Neural Networks [52.28945097811129]
長い時間的シーケンスを含む科学機械学習応用のための拡張ニューラルネットワークフレームワークを提案する。
元のメカニスティックニューラルネットワーク (MNN) を再構成することにより、計算時間と空間の複雑さを、それぞれ、列長に関して立方体と二次体から線形へと減少させる。
大規模な実験により、S-MNNは元のMNNと精度で一致し、計算資源を大幅に削減した。
論文 参考訳(メタデータ) (2024-10-08T14:27:28Z) - Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks [4.407841002228536]
我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。
また、各CNN層における計算を複数のチャンクに分割する新しい分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-29T09:50:21Z) - Parallel Proportional Fusion of Spiking Quantum Neural Network for Optimizing Image Classification [10.069224006497162]
量子・スパイキングニューラルネットワーク(PPF-QSNN)の並列比例融合(Parallel Proportional Fusion of Quantum and Spiking Neural Networks)と呼ばれる新しいアーキテクチャを導入する。
提案したPPF-QSNNは、既存のスパイクニューラルネットワークと、精度、損失、ロバストネスといったメトリクスにわたるシリアル量子ニューラルネットワークの両方より優れている。
本研究は、人工知能計算における量子優位性の発展と応用の基盤となるものである。
論文 参考訳(メタデータ) (2024-04-01T10:35:35Z) - LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Scalable Nanophotonic-Electronic Spiking Neural Networks [3.9918594409417576]
スパイキングニューラルネットワーク(SNN)は、高度に並列化されたリアルタイム処理が可能な新しい計算パラダイムを提供する。
フォトニックデバイスは、SNN計算パラダイムに適合する高帯域並列アーキテクチャの設計に最適である。
CMOSとSiPhの併用技術はスケーラブルなSNNコンピューティングアーキテクチャの設計に適している。
論文 参考訳(メタデータ) (2022-08-28T06:10:06Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。